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《现代 数学 基础 丛书 》 序 


对 于 数学 研究 与 培养 青年 数学 人 才 而 言 ， 书 籍 与 期 刊 起 着 特殊 重要 的 作 
用 . 许多 成 就 卓越 的 数学 家 在 青年 时 代 都 曾 钻研 或 参考 过 一 些 优秀 书籍 ， 从 中 汲 
取 营 养 ， 获 得 教 益 . 

20 世纪 70 年 代 后 期 , 我 国 的 数学 研究 与 数学 书刊 的 出 版 由 于 “文化 大 革命 ” 
的 浩 动 已 经 被 破坏 与 中 断 了 10 RE, 而 在 这 期 间 国 际 上 数学 研究 却 在 迅猛 地 发 
展 着 . 1978 年 以 后 , 我 国 青年 学 子 重新 获得 了 学 习 、 钻 研 与 深造 的 机 会 . 当时 他 
们 的 参考 书籍 大 多 还 是 50 年 代 甚 至 更 早期 的 著述 . 据 此 , 科学 出 版 社 陆续 推出 
了 多 套数 学 从 书 , 其 中 《纯粹 数学 与 应 用 数学 专著 》 从 书 与 《现代 数学 基础 从 书 》 
更 为 突出 , 前 者 出 版 约 40 卷 , 后 者 则 逾 80 卷 .它们 质量 其 高 , 影响 颇 大 , 对 我 国 
数学 研究 、 交 流 与 人 才 培 养 发 挥 了 显著 效用 . 

《现代 数学 基础 丛书 》 的 宗旨 是 面向 大 学 数学 专业 的 高 年 级 学 生 、 研 究 生 以 
及 青年 学 者 ， 针 对 一 些 重 要 的 数学 领域 与 研究 方向 ， 作 较 系 统 的 介绍 . 既 注 意 该 
领域 的 基础 知识 ,又 反映 其 新 发 展 ,力求 深入 浅 出 , 简明 扼要 ,注重 创新 . 

近年 来 , 数学 在 各 门 科学 、 高 新 技术 、 经 济 、 管 理 等 方面 取得 了 更 加 广泛 与 
深入 的 应 用 ,还 形成 了 一 些 交叉 学 科 . 我 们 希望 这 套 从 书 的 内 容 由 基础 数学 拓展 
到 应 用 数学 、 计 算数 学 以 及 数学 交叉 学 科 的 各 个 领域 . 

这 套 丛 书 得 到 了 许多 数学 家 长 期 的 大 力 支 持 ， 编 辑 人 员 也 为 其 付出 了 艰辛 的 
劳动 . 它 获 得 了 广大 读者 的 喜爱 . 我 们 诚挚 地 希望 大 家 更 加 关心 与 支持 它 的 发 展 ， 
使 它 越 办 越 好 ， 为 我 国 数学 研究 与 教育 水 平 的 进一步 提高 做 出 贡献 . 


h 乐 
2003 年 8 月 
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前 言 


最 近 二 三 十 年 来 , 统计 学 得 到 了 迅速 的 发 展 , 这 个 发 展 的 特征 是 非常 显著 的 , 那 
就 是 与 其 他 学 科 的 融合 , 根据 实际 问题 的 需要 , 不 断 探索 新 的 数据 分 析 方 法 , 逐渐 
形成 新 的 理论 . 我 们 很 高 兴 地 看 到 , 统计 学 已 经 成 为 自然 科学 、 工 程 技术 、 社 会 科 
学 、 人 文科 学 中 许多 学 科 数 据 分 析 的 强 有 力 的 工具 , 并 且 在 这 个 过 程 中 , 统计 学 自 
身 也 得 到 了 长 足 的 发 展 , 形成 了 很 多 新 的 研究 领域 . 作为 统计 科研 工作 者 , 特别 是 
年 轻 的 研究 人 员 、 博士后 和 广大 的 研究 生 , 了 解 这 些 研 究 领域 的 基础 知识 、 研 究 手 
法 、 最 新 成 果 和 发 展 趋势 , 对 于 开拓 视野 、 确 立 研究 方向 , 并 站 到 科研 前 沿 都 是 非 
常 重要 的 . 本 书 正 是 为 这 一 需要 而 写 . 

本 书 主要 介绍 随机 和 矩阵 谱 理 论 及 大 维 数据 分 析 、 大 规模 数据 分 析 及 降 维 技术 、 
变 系 数 模 型 、 纵 向 数据 模型 的 稳健 推断 、 测量 误差 模型 及 其 统计 推断 方法 、 RAB 
据 回归 分 析 、 复 发 事件 数据 的 统计 分 析 、 因 果 推 断 与 图 模型 、 复 杂 疾 病 基 因 的 统计 
关联 分 析 、 生 物 医 学 等 价 性 评价 问题 的 统计 推断 、 约 束 下 的 统计 推断 方法 、 现 代 试 
验 设计 与 抽样 调查 等 科学 研究 方向 或 研究 领域 . 每 一 章 均 介 绍 一 个 研究 领域 或 研究 
方向 , 并 由 已 在 该 领域 取得 突出 成 就 或 者 是 活跃 在 这 些 领 域 的 专家 撰写 . 由 于 篇 幅 
所 限 , 本 书 不 可 能 介绍 统计 的 所 有 研究 领域 , 对 所 介绍 的 研究 领域 , 也 不 可 能 非常 
详细 地 介绍 且 面 面 俱 到 , 但 我 们 尽量 做 到 在 读者 读 完 这 本 书 或 某 一 章节 后 对 各 领域 
或 某 一 领域 有 一 个 基本 的 了 解 , 从 而 帮助 读者 找到 自己 感 兴趣 的 研究 领域 或 研究 方 
向 . 通过 读 这 本 书 , 使 读者 能 具备 阅读 有 关 文 献 的 能 力 , 并 对 他 们 进入 这 些 领 域 进 
行 更 进一步 的 学 习 和 开展 研究 工作 起 到 指导 作用 . 本 书 除 了 介绍 最 新 成 果 外 , 还 注 
重 一 些 基 础 知识 的 介绍 , 并 注重 系统 介绍 各 领域 发 展 过 程 中 所 取得 的 一 系列 重要 成 
R, 从 而 使 那些 有 兴趣 的 科研 人 员 和 学 生 比 较 容 易 进入 这 些 研究 领域 , 并 找到 有 关 
领域 的 研究 发 展 规律 . 

本 书 各 章 是 相互 独立 的 , 作者 可 直接 学 习 某 一 章 , 而 不 需要 了 解 其 他 章 的 内 容 . 
本 书 对 初学 者 来 说 是 一 本 科学 研究 的 入 门 指导 书 , 而 对 研究 人 员 来 说 是 了 解 其 他 不 
同 研 究 领 域 的 必 备 参考 书 . 本 书面 向 大 学 数学 系统 计 学 专业 , 或 者 与 统计 学 有 关 的 
大 学 高 年 级 学 生 、 研 究 生 、 大 学 教师 和 科研 人 员 . 因为 本 书 所 介绍 的 研究 领域 大 多 
都 与 应 用 有 关 , 因此 , 本 书 也 适用 于 广大 的 应 用 工作 者 . 

由 于 作者 水 平 有 限 , 疏漏 不 足 在 所 难免 , 恳请 同行 及 广大 读者 批评 指正 , 

作 者 
2009 年 10 月 
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第 1 章 ”随机 矩阵 谱 理论 及 大 维 数据 分 析 


1.1 & 论 


近 二 三 十 年 来 , 由 于 计算 机 技术 的 飞速 发 展 和 广泛 应 用 ， 人们 得 以 能 够 搜集 、 
储存 和 处 理 大 量 的 高 维 数 据 . 数据 的 维 数 之 大 是 以 前 所 不 能 想象 的 , 从 而 数理 统计 
的 研究 热点 逐渐 由 小 样本 问题 转向 大 样本 问题 及 大 维 数据 分 析 . 但 是 人 们 发 现 , 由 
于 维 数 的 急剧 增加 , 由 假定 维 数 不 变 的 古典 极限 定理 发 展 起 来 的 数理 统计 方法 已 经 
不 再 适用 于 大 维 数据 分 析 , 急需 发 展 一 套 全 新 的 极限 理论 , 以 适应 大 维 数据 分 析 的 
需要 . 因此 , 大 维 数据 分 析 目 前 已 经 成 为 数理 统计 领域 最 热门 的 研究 课题 之 一 , 从 而 
也 使 得 大 维 随机 矩阵 的 谱 分 析 理 论 找 到 了 新 的 用 武之 地 . 由 于 在 大 维 数据 分 析 中 假 
定 了 数据 的 维 数 与 样本 大 小 之 比 趋 于 无 穷 , 这 样 大 维 随机 和 矩阵 的 谱 分 析 理论 成 了 月 
前 唯一 一 套 可 应 用 于 大 维 数据 分 析 的 极限 理论 , 并 且 它 能 够 解决 其 中 一 系列 的 实际 
问题 . 

20 世纪 40 年 代 末 、50 年 代 初 为 量子 力学 兴起 时 期 . 当时 量子 力学 家 们 希望 用 
大 量 粒 子 的 能 级 分 布 性 状 来 解释 整个 物理 系统 的 整体 性 质 , 而 系统 中 的 粒子 能 级 可 
以 用 一 个 大 维 数 观测 值 矩 阵 的 特征 根来 描述 . 他们 通过 大 量 的 物理 实验 和 数值 计 
算 发 现 了 大 量 的 统计 规律 . 这 些 规 律 被 称 为 定律 , 其 实 就 是 数学 猜想 . 在 50 ERR, 
普林斯顿 大 学 的 著名 物理 学 家 Wigner 教授 建议 不 要 用 Schrödinger 方程 去 计算 单 
个 粒子 的 能 级 , 而 应 该 把 有 大 量 粒子 组 成 的 物理 系统 看 成 一 个 黑 莲 子 , 然后 用 一 个 
其 元 素 服从 一 定 概率 分 布 的 n xn 的 Hermite 矩阵 来 描述 . 他 在 严格 的 数学 意义 下 
证 明了 著名 的 半圆 律 , 为 了 纪念 他 , 今天 都 称 之 为 Wigner 律 或 Wigner 半圆 律 . 

由 此 开始 , 随机 矩阵 理论 引起 了 许多 数学 家 的 兴趣 , Arnold, Geman, Grenander, 
Marvcenko, Pastur 等 相继 参与 了 该 领域 的 研究 . 特别 是 Marveenko 和 Pastur 创立 
了 样本 协 方差 阵 的 Marvcenko-Pastur 律 , 简 记 为 MP 律 . 50 多 年 来 , 随机 矩阵 理 
论 得 到 了 飞跃 发 展 , 已 成 为 一 个 独立 的 学 科 , 并 得 到 了 广泛 的 应 用 . 该 领域 发 表 文 
章 的 数量 成 指数 速度 增长 . 白 志 东 (1999) 对 20 世纪 的 发 展 和 主要 成 果 给 了 一 个 
回顾 . 

由 于 量子 力学 的 起 源 背 景 以 及 数学 描述 的 困难 , 50 多 年 来 的 研究 主要 集中 于 
关于 随机 和 矩阵 理论 特征 根 的 研究 , 而 对 于 特征 向 量 的 研究 则 相对 缺乏 . 但 是 , 近年 

本 章 作者 : 白 志 东 , 新 加 坡 国立 大 学 教授 , 东北 师范 大 学 特聘 教授 . 
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来 , 由 于 应 用 上 的 需要 , 关于 随机 矩阵 特征 向 量 的 研究 唤起 了 人 们 的 注意 . 就 一 定 
程度 来 讲 , 如 数理 统计 、 信 号 分 析 等 领域 , 特征 向 量 比特 征 根 具有 更 广泛 的 实际 应 
用 价值 . 


1.2 ”随机 矩阵 的 谱 分 析 


设 4 是 一 个 p xp 阶 的 矩阵 . 如 果 A 的 特征 根 Xi,，…… Ap 全 是 实数 , 则 可 以 
定义 一 个 经 验 分 布 函数 


FA(z) = 1 S710 < 2), (1.2.1) 
j=l 


其 中 , I(. <-) 为 示 性 函数 . 如 果 括 号 中 的 不 等 式 成 立 , 则 该 函数 取 值 1; 否则 , 取 值 0. 
显然 , FA 给 出 了 A 的 特征 根 的 分 布 , 故 FA 称 为 矩阵 A 的 经 验 谱 分 布 (ESD). 众 
所 周知 , HERE A 为 对 称 和 矩阵 (实数 情形 ) 或 为 Hermite 矩阵 (复数 情形 ) 时 , 它 的 
特征 根 全 为 实数 . 所 以 , 文献 中 通常 假定 4 为 实 对 称 和 矩阵 或 复 Hermite 矩阵. 当 A 
的 特征 根 为 复数 时 , 可 以 用 它 的 特征 根 的 实 部 和 虚 部 定义 一 个 二 维 经 验 分 布 函数 ， 


P 
PA(a,y) = = DO IRO) < 2,304) < 9); (1.2.2) 
j=1 


这 时 , FA (x,y) 也 称 为 4 的 经 验 谱 分 布 . 

设 {An} 为 一 个 mm x pn 矩阵 序列 . 若 当 pn 一 co 时 有 F4" 存在 一 个 弱 极 限 
F, 则 称 F 为 矩阵 序列 {An} 的 极限 谱 分 布 (LSD). 

An 为 随机 矩阵 的 情形 是 所 感 兴 趣 的 . 称 这 种 情形 下 的 理论 结果 为 大 维 随 机 甜 
阵 的 谱 分 析 , 或 简称 为 随机 和 矩阵 论 (RMT).  - 

有 时 , 也 对 A, 的 特征 向 量 感 兴趣 ， 特别 是 数理 统计 领域 以 及 大 量 应 用 数理 
统计 方法 的 领域 , 如 无 线 电 电子 学 领域 和 金融 风险 分 析 领 域 , 都 会 经 常 应 用 到 样本 
协 方差 阵 的 特征 向 量 及 特征 向 量 矩阵 ， 所 以 关于 特征 向 量 的 极限 理论 结果 也 属于 
RMT 的 研究 范围 . 


1.2.1 Wigner 和 矩阵 


所 谓 Wigner 矩阵 是 指 一 个 n xn 实 对 称 矩 阵 或 复 Hermite WE. 通常 假定 对 
角 元 及 对 角 线 以 上 的 元 素 相互 独立 . 概率 统计 中 最 常见 的 情况 是 规范 化 以 后 的 样 
本 协 方差 阵 的 极限 . 在 正 态 分 布 条 件 下 , 极限 矩阵 的 所 有 元 素 都 是 正 态 分 布 . 对 角 
元 是 iid (独立 同 分 布 ) 的 正 态 分 布 N(0,20o?), 而 对 角 线 以 上 的 元 素 为 iid N(0,c2). 
这 时 的 极限 矩阵 也 称 为 高 斯 矩阵 , 是 一 般 定 义 的 Wigner 矩阵 的 特例 . 量子 力学 中 
的 Wigner 矩阵 是 由 Hilbert 空间 上 的 对 称 线性 变换 离散 化 得 来 的 . 通常 假定 对 角 
元 iid, 而 对 角 线 以 上 的 元 素 iid. 最 广泛 的 定义 只 假定 独立 性 和 对 称 性 . 


1.2 ”随机 矩阵 的 谱 分 析 3， 


设 X = (zi;) 是 一 个 Wigner HM. 为 保证 半圆 律 成 立 , 假定 
(1) Exi; = 0; 

(2) E\zxij|? = 1; 

(3) Lindeberg 条 件 成 立 , 即 对 于 任何 n > 0, 4 n > co 时 有 


1 £ 
= SS Ele} (leyl > nva) 一 0. (1.2.3) 


i,jgn 


定理 1.2.1 在 上 述 条 件 下 ， x 的 ESD 以 概率 1 趋 于 半圆 律 , 即 


FYX(r) 一 F(x), a.s., 


其 中 ， 


1 k i 

a= = H < ; 

rina a Tr MS (1.2.4) 
0, 否则 . 


在 矩 条 件 下 证 明 LSD 的 存在 或 LSD 的 显 式 表达 式 , 通常 首先 要 对 和 矩阵 元 素 进 
行 截 尾 和 中 心 化 . 关于 Wigner 和 矩阵 的 截 尾 及 中 心 化 , 有 下 面 两 个 引 理 . 
引 理 `1.2.1 ( 秩 不 等 式 ) RAF BABY r 阶 的 Hermite HF, R 


IFA — FBI|:= sup|FA(z) — FB(z)| < ~rank(A - B). 
引 理 1.2.2 ( 差 不 等 式 ) KA Fe BAR n Hih Hermite HF, N) 
L3(FA, F®) :=inf{e|FA(a — e) — e < FP (x) < FA(z +e) + e€, vr} 
< Ltr(A - B}, 
n 


下 面 举例 来 说 明 如 何 应 用 以 上 两 个 引 理 来 对 AX 的 元 素 进 行 截 尾 和 中 心 化 . 由 
SAF (1.2.3) 知 存在 一 常数 列 7 = nh | 0, 使 得 


-4 YD Ela? lI (leyl > man) — 0. (1.2.5) 


n2n2 
令 Tij = Tij t (|£; < Mm Vn) 以 及 x = (245): j<n- 由 引 理 1.2.1 知 


i -二 1 
|F vax — Fva* || =< 3 5 I(\xij| > mvn). 


i jsn 
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再 由 Bernstein 不 等 式 呈 可 知 上 式 右 端 以 概率 1 趋 于 0. 


rs x, 1 
LEAX, FAX) < 2 lBzsllesl > mn)! 
ijan 


1 
< 二 D Eleye] > ma Vn) > 0. 


ijan 


以 上 两 个 不 等 式 就 把 证 明 x 的 半圆 律 问题 归结 为 证 明 x 的 半圆 律 问题 . 


但 是 , 由 于 z3 的 元 素 具 有 任意 阶 矩 , 因此 , ATLA ETA Carleman 定理 证 


明 半 圆 律 , 这 里 略 去 详细 证 明 . 有 兴趣 的 读者 可 以 参见 白 志 东 与 Silverstein 教授 合 
写 的 专著 《大 维 随机 矩阵 的 谱 分 析 》. 

随机 矩阵 理论 的 另 一 个 重要 课题 是 极 大 极 小 特征 值 的 极限 . 关于 这 个 问题 , 白 
志 东 和 乃 涌 泉 (1986) 证 明了 如 下 定理 : 

定理 1.2.2 ”假定 Wigner Æ X 的 对 角 元 为 id, 对 角 线 以 上 的 元 素 为 iid, 
则 Xx 的 最 大 特征 根 以 概率 1 收敛 于 一 个 有 限 极限 a 的 充分 必要 条 件 是 

(1) E(xzt)? < 00; 

(2) Exis < 0, Vi £ j (PRZ A RAAH): 

(3) Ext, < 00; 

(4) Elayo — Exj2|? = o? = \/a/2. 

根据 定理 1.2.2, 很 容易 得 到 如 下 推论 : 

推论 1.2.1 假定 Wigner 42M X 的 对 角 元 为 iid, 对 角 线 以 上 的 元 素 为 iid， 


则 ax 的 最 大 特征 根 以 概率 1 收敛 于 一 个 有 限 极限 a 且 最 小 特征 根 以 概率 1 收 


BF b 的 充分 必要 条 件 是 
(1) Elz1|? < œ; 
(2) Ez12 = 0, Vi 4 j; 
(3) Elz12|* < 00; 
(4) Elaig — Ex 9|? = o? = Va/2 = V 一 5/2. 
在 随机 和 矩阵 论 的 应 用 中 , 有 许多 重要 统计 量 是 由 随机 矩阵 的 特征 根 的 泛 函 构成 
的 . 一 类 重要 泛 函 是 线性 谱 统 计量 (LSS), 它 的 定义 为 
O Bernstein 不 等 式 : 设 Xi, ,Xn 为 一 列 独立 随机 变量 , 均值 为 0, Xi 的 方差 为 o?, 并 上 且 | Xil <b, 
则 对 于 任何 常数 = > 0 恒 有 


P(|Sn| > £) < 2exp(—e?/2(BR + be)), 
其 中 ， Sn =X, +-+ Xp, B2 =o02+---+02. 


1.2 BERLE REND AAR 15: 


ESA) = /radar 


i=l 
显然 , 在 一 定 条 件 下 , 它 的 极限 是 if f(z)dF(z), 其 中 , F(z) 是 {An} AY LSD. 在 应 用 
中 , 有 统计 兴趣 的 参数 通常 可 以 表示 成 | f(z)dF(z) 的 形式 , 而 / f(z)dF a"(z) 可 


以 表示 参数 的 估计 量 . 为 了 区 间 估 计 或 假设 检验 的 需要 , 需要 研究 T f(x)dFA* (x) 
的 渐 近 分 布 . 白 志 东 与 姚 剑 锋 (2008) 建立 了 Wigner 矩阵 的 LSS 的 中 心 极限 定理 . 
定理 1.2.3 ”假设 A 为 一 族 函 数 , 对 于 任何 f CA 存在 一 个 复 平面 上 包含 
[2,2] FRU, 使 得 f ERRU 中 解析 . 考虑 随机 变量 族 X(N) =n | fe) 
d(FV*X(x) — F(z)), f € A. 假设 zu 为 iid 随机 变量 , HMA 0, 方差 为 02. 
zij(i <j) 为 均值 为 0, 方差 为 1 的 iid 随机 变量 且 具 有 有 限 的 4 Mss, 则 
(1) 对 于 任何 有 限 个 fk E€ A, 随机 向 量 列 {Xn( 大 )} 为 一 紧 序 列 ; 
(2) WRX 的 元 素 为 实 随机 变量 , 则 {X,(fe)} 以 分 布 收敛 于 一 正 态 随机 向 量 
{ 瑟 (大 )}， 其 均值 为 
EX (f) = 工 J(-2+JC)) - 370(f) + (0? — 2)ro(f) + Bral ), 
协 方差 函数 为 
c(f,9)=E(X(f)— EX(f))(X(g) — EX(g)) 


=o2n(f)n(g) + 2(8 + 1)72(f)72(g) + 2 > trel f rela) 


£=3 
-hf i f'(t)g'(s)V,-(t, s)dtds, 


其 中 
B= Eris -3, 7(f)=/ F(2cos(0)) costj0)d 


—ts+ y (4 — t?)(4 — s?) 
V,(t, s) = («? 一 2 十 32t) V (4 — t?) (4 — s?) ape 人 == ee). 
(3) WRX 的 元 素 为 复 随 机 变量 , 并 且 满 足 Erh =0, 则 {X,(fe)} 以 分 布 收 
敛 于 一 正 态 随机 人 向量 , 其 均值 为 
EX(f) = (0? — 1)ro(f) + Aral), 


WA A BRA 
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c(f,9)=02n(f)n(g) +28 + 1)r2(f)r2(g y+ S nit 


£=3 
2 2 
= 5 i I, f'(t)g!(s)Vi(t, s)dtds, 
其 中 ， 
— ts + /(4— t#)(4 — s?) 
Vi(t,s) = (0? 一 上 十 去 jp) V (4 — t?)(4 — s?) + log (oe | i 
1.2.2 ”样本 协 方差 阵 


样本 协 方差 阵 是 数理 统计 以 及 其 他 应 用 领域 最 有 价值 的 一 个 统计 量 . 它 的 定义 
如 下 : BX = (zik) 是 一 个 由 独立 随机 变量 组 成 的 p xm 阶 随机 和 矩阵 , 则 样本 协 方 
差 阵 定义 为 


1 1_1 , 
= 二 4 (5 (Tik — Zi)(Tjk 一 25) . = (xx — —(XIn)(Xln) ) 


p 
i j= 


其 中 , z: = 上 D2 zin, 而 In 是 一 个 所 有 元 素 为 1 n RR 
k=1 


由 于 Xn) (Xn) 的 秩 (rank) 为 1, 故 不 影响 Sn 的 LSD, 所 以 文献 中 都 把 
它 的 定义 简化 为 , 
Sn = xX". 
样本 协 方差 阵 的 另 一 个 重要 应 用 领域 是 无 线 电 电子 学 . 为 数学 上 的 方便 起 见 , 他们 
通常 把 波形 观测 值 转换 成 复数 , 所 以 在 无 线 电 领 域 里 通常 使 用 复 随机 变量 . 为 适应 
该 领域 的 需要 , 把 样本 协 方差 阵 的 定义 改 为 


Sn = lxx’, 
n 


其 中 , * RANE ERA E. 
BX = (zij) 是 一 个 p x n ERE. 为 保证 MP 律 成 立 , 假定 
(1) Exi; = 0; 
(2) Elzijl? = 1; 
(3) Lindeberg 条 件 成 立 , 即 对 于 任何 7 > 0, 当 n ->oc 时 有 


LSS wish ire > nvn) > 0; (1.2.6) 
i=l j=l 
(4) p/n > y € (0,00). 
平行 于 Wigner 矩阵 有 如 下 结果 : 


1.2 ”随机 矩阵 的 谱 分 析 sT 


定理 1.2.4 ”在 上 述 条 件 下 , Sn 的 ESD 以 概率 1 趋 于 MP 律 , 即 
FS» (x) 一 F(z), a.s., 
FP, a= (1 - yg)’, b= (1+ y}, 并 且 
1 
Fi(z) = pd -—z)(z-a), a<z<b, (1.2.7) 
0, 否则 . 

如 果 y>1, 则 F(z) 除了 上 述 密度 外 , 另 在 原点 有 一 质量 为 1 - 1/y 的 原子 . 
类 似 于 Wigner 和 矩阵 的 截 尾 及 中 心 化 引 理 ， 可 得 到 下 面 两 个 引 理 . 

引 理 1.2.3 (ZFA) 设 4 fo BABA nr HH Hermite FF, 则 


F4% — 下 BB | < Srank(A ~ B). 
引 理 1.2.4 ( 差 不 等 式 ) RAH BABADxn 阶 的 复 随机 和 矩阵， 则 
LFA’ PBB’) < 5tr(44 + BB')-tr(A ~ B}. 


利用 上 述 引 理 对 于 样本 协 方差 阵 的 截 尾 和 中 心 化 与 Wigner 矩阵 十 分 相似 ， 
故 略 . 

截 尾 和 中 心 化 以 后 , 就 把 证 明 Sn 的 MP 律 问题 转化 为 在 截 尾 条 件 下 证 明 MP 
律 的 问题 , 故 也 略 去 详细 证 明 . 

随机 矩阵 理论 的 另 一 个 重要 课题 是 考虑 极 大 极 小 特征 值 的 极限 问题 . 关于 这 个 
问题 , Bai 等 (1988), Bai 与 Yin (1993) 证 明了 如 下 定理 : 

定理 1.2.5 车 XX 矩阵 的 元 素 为 iid 且 均 值 为 0, 方差 为 1, 那么 Sn 的 最 大 
特征 根 以 概率 1 收敛 于 一 个 有 限 极限 b= (1+ Vy)? 的 充分 必要 条 件 是 


E|\zxt,| < 00. (1.2.8) 


在 条 件 (1.2.8) F, Hp <n 时 Sn 的 最 小 特征 根 , 或 当 p > n 时 S， 的 第 
p-n+1 个 最 小 特征 根 以 概率 1 KAF a = (1 一 Vg)?. 


1.2.3 EERE 


HERE S 与 一 个 非 负 定 的 Hermite FAKE T 的 乘积 ST 的 谱 分 析 . 注意 ST 
的 全 部 特征 根 与 矩阵 TST 的 全 部 特征 根 一 样 . 如 果 把 B, := TST E 
成 


n 
YO Træ T™?, 


j=1 
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则 它 可 以 看 成 是 从 一 个 协 方差 阵 为 T 的 总 体 中 抽出 来 的 一 个 大 小 为 n 的 样本 构造 
的 样本 协 方差 阵 . 如 果 T 看 成 另外 一 个 样本 协 方差 阵 的 逆 矩 阵 S, NI NB 
乘积 是 多 元 统计 分 析 中 十 分 重要 的 F ARE. Alt, 这 类 和 矩阵 乘积 在 大 维 随机 和 矩阵 
谱 分 析 中 很 有 兴趣 . 

1982 年 , BAERS Krishnaiah 证 明了 如 下 定理 : 

定理 1.2.6 ”如果 nSn 为 一 个 p 维 Wishart HH, p/n 一 y > 0, 对 于 任何 正 
整数 k, p HtrT" 一 Hy, Hk 满足 Carleman 条 件 , Bp 


Yo Hig = 


则 ST 的 极限 谱 分 布 存在 ,并 且 极 限 谱 分 布 的 上 阶 和 矩 由 下 式 给 出 : 


k 


B= dy" É > ala 


s=1 订 十 i2 十 ,， eee sth m=1 tm! 
i, Paint. -+siy =k 


HIRT 1986 年 仅 在 二 阶 矩 存在 的 条 件 下 , 进一步 证 明了 上 述 结 果 . 1987 年 ， 
HEAK, BOR Krishnaiah 利用 上 式 导出 了 FF 矩阵 的 极限 谱 分 布 的 明显 表达 式 . 
当 p/ni > yı < 00, p/n2 > ye € (0,1) 时 , F SRE AAR PR OD AA 

1 ome a 
Fy, y(t) = | 2TZ(V1 + ry2) I 
0, 否则 ， 
其 中 ab = CEVA ED WAY MR yy > 1, 则 极限 谱 分 布 在 原点 有 一 个 质量 
为 1 一 1/y 的 点 测度 . 

1995 年 , Silverstein 进一步 证 明了 如 下 定理 : 

定理 1.2.7 wR ry iid 且 均 值 为 0, 方差 为 1, T 的 极限 谱 分 布 H 存在 , 则 
ST 为 非 负 定 且 其 极限 谱 分 布 存 在 , 并 且 极 限 谱 分 布 ( 记 作 FY) 的 Stieltjes 变换 中 
( 记 作 s = s(z)) 为 下 面 的 方程 在 上 半 平 面 的 唯一 解 : 


s= f Serr —4H()), 


其 中 z 的 虚 部 为 正 数 . 
p 

E Xa) =p | FEAE (se) -pe)), RE p | Fajara) =X JOB") 
k=1 


D 对 于 任何 有 界 变 差 函 数 G, 其 Stieltjes 变换 定义 为 s(z) = J 二 -adG(o)， 其 中 , 2 的 虚 部 为 正 
数 . 与 特征 消 数 类 似 , Stieltjes 变换 与 有 界 变 差 函数 之 间 有 一 一 对 应 关系 、 逆 转 公式 和 连续 性 定理 . 


1.2 PEDLER RIIAT -9- 


为 矩阵 五 。 的 线性 谱 统计 量 . 2004 年 , 白 志 东 与 Silverstein M J ERE ST 的 线性 
谱 统 计量 的 中 心 极 限定 理 . 

定理 1.2.8 ” 设 下 述 条 件 成 立 : 

(1) zi A iid, Ezij = 0, Ex?, = 1, Ext; < 00, p/n — y; 

(2) T 的 ESD FT — H, 其 中 ， H 是 一 个 概率 分 布 : 

(3) 用,…… ,fi AK AEA Š 


(lim inf Amin T0, ny) 一 vI’, lim inf Mnax!(0,1)(y)(1 T va)’] (1.2.9) 


的 某 个 开 区 域 上 解析 的 函数 , 则 有 如 下 结论 : 
e 3 n— oo 时 , 随机 向 量 序列 
(Xalfi) Xn(fk)) 
构成 一 个 紧 序 列 ; 
。 当 ry 和 Tv MATA Er = 3 时 , 上 述 随机 向 量 序列 依 分 布 收效 于 一 个 
Gauss 随机 向 量 (Xy,,--- Xan) 其 均值 为 


了 s(z)3t2dH(t) 
4} (+t) 


1 
EX; 三 一 一 一 一 -一 一 一 -一 二 一 一 dz， 
1=— 3G JF) |， | AzaH() z 
( 4 eo, 
而 协 方差 函数 为 
(21)g(22) aN at 
Cov(X j, X =a |/ ey pe ene ender, 


其 中 , BABU C 和 Cl 同时 包围 且 可 以 任意 接近 式 (1.2.9) 给 出 的 区 间 , 但 互 不 
相交 ; 

e Tij 和 Ta 都 是 复 值 且 Elzs | -= ZA Ex}, =0 时 ， 上 述 随 机 向 量 序列 依 分 
布 收敛 与 一 个 Gauss 随机 向 量 (Xps Xn) 其 均值 为 0, 而 协 方差 为 实 值 时 的 
一 半 . 

在 上 述 结 论 中 , s(2) = -1Y 4 ys(2). 注意 , s(z) 满足 逆转 公式 


z= -5 +y | ane. 


为 了 大 维 多 元 分 析 的 需要 . KRR SH TORE F 矩阵 的 线性 谱 统计 量 的 
中 心 极 限定 理 . 
定理 12.9 iP- SS, AH, Si- Saaja = 1,2) BA pm 一 
i j=1 


Yi E (0,1). 假定 
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(1) 对 于 任何 7 > 0, 
Thi p 
L SSY ElatglM(leignl > nvm) > 0 


(该 条 件 冀 涵 sup Elaia] < 00); 
(2) 如 果 Ca 同 为 实 随机 变量 , 则 Exijk = 0, Elz zk| = =1,);= E|z{ |- 1—kK, 


K=2; 
(3) 如 果 {2k} 同 为 复 随 机 变量 . 则 Ezijk = 0, E|z3,,.| = 1, f= Elzt.l -1-k, 
K=1, 并且 Ex}, =0; 


(4) HBR (fi. , fk} 同时 在 包含 区 间 [a,b] 的 复 平 面 上 的 某 个 开 区 域 上 


解析 ， 其 中 , ab 三 Er aP h? = Yı + Y2 — Yiye: 
EmMa XAG = 1,2,---.k) 以 分 布 收 敛 于 联合 正 态 随机 向 量 Xl = 
ssk), RESE A 


JE + REl \ f(s- LE k—1 Biyi (l ~ ye)? 
A SFO 
BX =U oi fy. (rama) [B+ ee 


~ B2y2(1 — yo)(hE + Pag 
h2(€ + rh—lye)8 i 
渐 近 协 方差 函数 为 
Cov(X s,X,)=E(X+— EXs)(Xq— EX,) 


fn ie h, |1 + h&,? [1 + h€q|? l K 
mn Ax? Pe cree s( |1 — y2? Jo |1 — yal? ) (ré: — £2)? 
, (By + Baya) — ye)? 
h2(€1 + hly2)?(é2 + h-1y2)? 
其 中 ,7 < 1 但 充分 接近 于 1. 
注 无论 随机 变量 为 实 正 态 或 复 正 态 分 布 恒 有 B= 


1.2.4 非 对 称 矩 阵 


4X, 的 元 素 为 iid 的 随机 变量 时 , 其 特征 根 均 为 复数 . 这 时 有 一 个 著名 的 加 


律 猜想 , 即 当 XX 的 元 素 为 iid 且 均 值 为 0, 方差 为 1 时 ， Xn 的 谱 分 布 趋向 于 


单位 圆 上 的 均匀 分 布 . 这 个 猜想 最 早 是 Mehta 于 1967 年 在 他 的 专著 《随机 矩阵》 
中 , 对 于 Xn 的 元 素 均 为 标准 复 正 态 分 布 时 的 特例 给 以 证 明 的 . 他 的 证 明 强 烈 地 依 
赖 于 Ginibre 在 1965 年 导出 的 Xn 的 特征 根 的 联合 密度 表达 式 . 白 志 东 在 1997 年 
证 明了 如 下 定理 : 


| déidé2, 


1.3 ”大 维 数据 分 析 - 11. 
定理 1.2.10 ” 设 下 述 条 件 成 立 : Xn 的 元 素 为 jid, MBA 0, ŽA 1, 具有 
有 限 的 4 二 7 ME Bih 假定 zij 的 某 个 实 部 与 虚 部 的 线性 组 合 在 给 定 另 一 个 线 
性 组 合 时 具有 有 界 的 条 件 密度 , 则 有 Xe 的 谱 分 布 以 概率 1 趋向 于 单位 园 上 的 
均匀 分 布 . 
白 志 东 与 Silverstein 在 2006 年 出 版 的 专著 《大 维 随机 拢 阵 的 谱 分 析 》 一 书 中 ， 
KER AE MERE 2+ y. 最 近 , Tao 和 Vu 去 掉 了 关键 的 密度 条 件 . 


1.3 大 维 数据 分 析 


1.3.1 基本 概念 


如 在 绪论 中 所 提 到 的 , 计算 机 技术 的 飞速 发 展 和 广泛 应 用 给 人 们 带 来 的 好 处 是 
不 可 估量 的 ， 人 们 可 以 收集 、 储 存 和 处 理 二 三 十 年 以 前 所 不 可 想象 的 大 量 大 维 数 
#2. 例如 , 30 年 前 , 对 一 个 50 维 的 样本 协 方差 阵 进 行 谱 分 解 都 是 一 件 很 困难 的 事 
情 . 而 今天 的 计算 机 程序 , 对 一 个 3000 维 的 样本 协 方差 阵 进 行 谱 分 解 都 是 一 件 轻 
而 易 举 的 事情 . 但 是 , 计算 机 的 使 用 和 大 维 数据 的 广泛 出 现 , 也 给 人 们 带 来 了 新 的 
挑战 . 这 就 是 近 百 年 来 发 展 起 来 的 经 典 统 计 方法 在 处 理 大 维 数据 时 , 变 得 贫乏 无 力 ， 
甚至 失去 效力 . 像 金良 笔下 的 包 不 同 先生 一 样 , 否决 一 切 正确 的 假设 , 使 得 假设 检 
验 得 出 相反 的 结果 . 因此 , 人 们 必须 发 展 出 一 套 全 新 的 统计 理论 和 方法 , 以 适应 大 
维 数据 分 析 的 需要 . 因此 , 近 十 年 来 , 大 维 数据 分 析 变 成 了 数理 统计 领域 中 一 个 十 
分 热门 的 课题 . 

这 里 随 之 而 来 的 一 个 问题 是 如 何 区 分 一 个 问题 是 传统 的 多 元 分 析 问 题 , 还 是 一 
个 大 维 统计 分 析 问 题 ? 也 就 是 说 , 当 维 数 达 到 什么 时 算 大 维 数据 分 析 , 而 维 数 小 到 
什么 时 可 以 算 传统 的 多 元 统计 分 析 . 在 下 面 几 节 里 , 将 通过 几 个 例子 来 讨论 一 下 大 
维 数据 是 如 何 使 经 典 统计 方法 失效 的 , 并 如 何 进行 补救 . 


1.3.2 ”关于 均值 的 统计 分 析 


数理 统计 主要 要 解决 的 问题 是 关于 均值 的 检验 与 分 析 , 以 及 关于 变异 或 方差 的 
检验 与 分 析 . 在 本 节 中 , 首先 考虑 关于 均值 的 问题 . 
一 样本 均值 检验 的 问题 是 检验 总 体 均值 等 于 一 个 给 定 值 , 即 Ho : p= po; 
两 样本 均值 检验 的 问题 是 检验 两 个 总 体 的 均值 相等 , 即 Ho : pr = pe: 
多 样本 均值 检验 的 问题 是 检验 数 个 总 体 的 均值 相等 , 即 Ho : p =… = per, 也 
k 


称 为 多 元 方差 分 析 问 题 . 为 方便 计 , 通常 改写 成 ju = +, 》 6i = 0, 则 原 假设 变 
为 Ho: ði = 0(i = l,- ,k). = 
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以 上 三 个 问题 都 是 多 元 回归 分 析 模 型 的 特例 .多 元 回归 模型 如 下 : WX: ~ 
N,(Bzi, 5) 为 一 多 元 样本 , 相互 独立 , 其 中 , Bpx4 为 回归 系数 矩阵 , zi 为 设计 点 列 
或 共 变量 观测 值 . 这 一 模型 可 以 改写 成 

Xi = Bzi +e; e; N,(0,2). 


在 正 态 分 布 假定 下 , 经 典 数理 统计 已 经 证 明 似 然 比 检验 通常 是 最 有 效 的 检验 方 
法 . 当 没 有 正 态 分 布 的 假定 时 , 若 样 本 比较 大 , 则 在 正 态 假定 下 推导 出 来 的 似 然 比 
检验 , 通常 也 是 渐 近 最 有 效 的 . 但 是 , 在 大 维 数据 分 析 中 是 否 也 是 这 样 呢 ? 实践 证 
明 不 是 这 样 的 . 其 实 , 很 早 以 前 人 们 就 已 经 发 现 , 当 维 数 (样本 维 数 或 参数 个 数 ) 大 
时 , 统计 的 效力 会 衰减 , 所 以 各 种 各 样 的 降 维 法 (包括 变量 选择 、 逆 回归 分 析 和 模 
型 选择 等 为 其 特例 ) 在 数理 分 析 中 发 展 起 来 , 早已 成 为 数理 统计 学 科 的 一 项 重要 内 
容 和 统计 方法 . BOR, 由 于 降 维 的 原因 , 将 会 损失 样本 中 的 一 些 信息 , 但 是 由 于 维 数 
的 减少 , 统计 效力 的 提高 , 还 是 得 大 于 失 的 , 所 以 降 维 法 至 今 仍 是 数理 统计 中 的 一 
种 重要 方法 并 被 人 们 采用 . 

但 是 , 现在 出 现 的 问题 是 维 数 很 大 时 , 降 维 法 是 否 仍然 适用 ? 例如 , 在 主 分 量 分 
析 中 , 如 果 把 10 个 变量 减少 到 三 个 主 变量 , 还 可 以 保留 到 90% 以 上 的 信息 量 , 这 
是 可 以 的 . 但 如 果 有 1000 个 变量 , 丢掉 700 个 变量 , HIF 300 个 变量 , 仍然 是 大 维 
问题 , 统计 效力 仍然 不 高 . 如 果 也 只 保留 三 个 主 变量 , BIE 1% 的 信息 量 也 剩 不 
FT. 这 就 是 说 , 如 果 维 数 真 的 很 大 , 降 维 法 就 不 适用 了 , 必须 寻找 新 的 统计 方法 来 
解决 大 维 数据 分 析 的 问题 . 

举例 而 言 ， 重 新 考虑 上 述 线 性 回归 问题 . 设 回归 系数 矩阵 B 可 以 分 成 两 块 
(Bi, B2), 其 中 , B: 的 维 数 为 p x qi(i = 1,2), q + = 4. 考虑 假设 Ho: By = Bi. 


相应 地 , 把 zi 也 分 解 成 ( 在 对 立 假设 下 , B 的 极 大 似 然 估计 是 


Zi2 


B= (ox) (Sox!) (1.3.1) 
同时 , 允 的 极 大 似 然 估 计 是 
$= (2o: Bex; = Ba) ), (1.3.2) 


极 大 似 然 值 是 


Lmax = cnl E|”, 
其 中 , c 为 一 个 依赖 于 n 的 常数 . 现在 考虑 在 原 假设 下 的 极 大 似 然 估计 , 令 y; = 
Xi- Biza. 相应 地 , 在 原 假设 下 的 极 大 似 然 估计 是 


m n 一 1 
B = (Zuze) (Z zaza) : 
i=1 i=l 
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同时 , 允 的 极 大 似 然 估计 是 
Èo = (Zo: = Boozi2)(y; Baza) ), 


i=l 
极 大 似 然 估 计量 是 pode 
Lmax = Cn| Zo Tae, 
所 以 , 似 然 比 统计 量 为 (= S/o) 的 3n UAT, 故 似 然 比 检验 等 价 于 由 和 构造 
的 检验 . 
经 过 简单 计算 得 
入 二 |I + (n£) (B, — BY) Aii2(B, — Bt)! an (1.3.3) 


其 中 , B, 是 B 的 前 q Fl, Anz = An — AA A2, 而 
Ajk = >》 zizie 
i=l 


可 以 证 明 ng ~ W,(n — q, 2), 而 在 原 假设 下 ， (Bı 一 Bi)Ayi-2(Bi =- Bi) ~ 
W,(n, X) 且 二 者 相互 独立 . 这 就 是 说 , 如 果 F = Mn) -1(B1-B})An:2(81- 
Biy 具有 较 大 的 特征 根 时 , 拒绝 原 假设 . 

在 上 述 假定 下 , 和 的 精确 分 布 可 以 写 出 来 , 但 这 只 是 理论 上 的 事情 . 当 p 和 gq 
都 比较 大 时 , 具体 计算 临界 值 还 是 个 很 麻烦 的 事 . 当 正 态 假定 不 成 立时 , 和 的 精确 
分 布 几乎 不 可 计算 . 因此 , 需要 它 的 渐 近 分 布 . 这 就 是 著名 的 Wilks 定理 : 当 p 和 
q 固定 而 n 一 co 时 , —2nlog(A) > X2 .以 上 结果 都 可 以 在 Anderson 的 《多 元 统 
计 分 析 引 论 》 中 找到 . 

兴趣 在 于 za BE n 而 言 不 是 很 小 时 , 上 述 结 果 的 精确 度 又 如 何 . 由 Wilks 定理 
的 证 明 可 知 上 述 渐 近 性 质 仅 当 arid 的 特征 根 一 致 充分 小 时 才 成 立 , 这 在 par BE 
n 不 是 很 小 时 , 显然 不 成 立 . 

当 gi =1 时 , eM F 的 唯一 非 0 特征 根 是 一 个 T? 统计 量 的 单调 函数 , 故 LRT 
SOF T 检验 ， 当 正 态 假定 成 立时 , 上 述 检验 方法 有 一 个 好 处 , 就 是 统计 量 的 精 
确 分 布 已 知 , 所 以 第 一 类 误差 可 以 精确 “确定 ”. 但 是 , 无 论 是 矩阵 F, 还 是 T2 统 
计量 都 有 一 个 致命 的 缺点 , 就 是 当 p > n 一 g 时 , 由 于 ng 不 满 秩 , 故 这 些 统计 量 不 
可 定义 . 不 禁 要 问 , 当 p 接近 于 n 一 g 但 小 于 n 一 g 时 , 上 述 统 计量 可 以 定义 , 这 些 
RUBE GRA RENE? RAZ, LRAT 是 否 具 有 一 臻 最 优势 的 功效 呢 ? 如 果 不 是 
这 样 , 如 何 构造 更 好 的 统计 量 呢 ? 这 些 是 大 维 数据 分 析 要 解决 的 问题 . 

Dempster 于 1958 年 和 1960 年 发 表 了 两 篇 文章 , 提出 了 非 精 确 检验 (non-exact 
test), 当 T? 统计 量 没 有 定义 时 , 非 精 确 检 验 仍然 可 以 用 来 检验 两 个 总 体 均值 向 量 
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的 差异 . 白 志 东 与 Saranadasa (1996) 发 现 , Dempster 的 非 精 确 检验 不 仅 可 以 解决 
T? 统计 量 没 有 定义 时 的 两 样本 均值 检验 . 当 维 数 相 当 大 时 , 即使 T? 可 以 定义 , 非 
精确 检验 仍然 比 T? 检验 具有 更 大 的 功效 . 同时 , 白 志 东 与 Saranadasa 又 提出 了 一 
个 新 的 检验 方法 , 不 仅 构造 简单 , 具有 比 前 者 更 大 的 功效 , 并 且 当 正 态 的 假定 不 成 
立时 , 后 者 具有 更 稳健 的 性 质 . 为 什么 由 矩阵 F R T? 统计 量 构造 的 检验 的 功效 不 
wave? 这 一 点 可 以 由 定理 1.2.4 看 出 . 无 论 和 矩阵 F 或 T? 统计 量 , 都 涉及 一 个 样本 
协 方差 阵 的 逆 . 当 p 比较 大 时 , 样本 协 方差 阵 的 特征 根 散 布 在 (ay,b,), 4 y 比较 靠 
近 1 时 , ay = (1 一 VD)? 非常 接近 于 0, 故 样本 协 方差 阵 的 逆 会 有 很 大 的 特征 根 . 这 
将 导致 由 它 构成 的 统计 量 非常 不 稳定 . 这 就 是 由 矩阵 OF T 构成 的 统计 量 的 功 
效 都 会 不 高 的 原因 . 要 改进 的 方法 就 是 去 除 样本 协 方差 阵 的 首 . 这 种 方法 带 来 的 缺 
点 是 统计 量 的 分 布依 赖 于 讨厌 参数 , 必须 另外 寻找 相合 的 讨厌 参数 估计 , 从 而 导致 
第 一 类 误差 不 准确 . 这 就 是 Dempster 称 之 为 “ 非 精确 ”检验 的 原因 . 通常 可 以 证 明 
尽管 第 一 类 误差 不 准确 , 但 是 是 渐 近 准确 的 . 本 来 在 非 正 态 假定 下 , 由 中 心 极限 定 
理 构造 的 假设 检验 都 是 具有 渐 近 准确 的 第 一 类 误差 . 从 应 用 的 角度 来 看 , 具有 高 功 
效 的 检验 才 应 该 是 所 要 追求 的 . 

为 了 验证 上 面 的 论述 , 考虑 上 面 提出 的 关于 多 元 线性 回归 系数 的 假设 检验 Ho : 
Bı = By. 将 比较 式 (1.3.3) 的 入 给 出 LRT 和 下 面 新 提出 的 检验 . 


1. 修正 的 似 然 比 检验 
& v =p/a (RÜ y > 1), y = p/n — a) Be f(a) = 10g (1+ 2a), MAE 


-logA=P f° s(2)aF¥ (2), 
其 中 , FF 是 F AY ESD. 由 定理 1.2.9 得 


(1 — yo) V(b — z) (z — a) 


b 
on log A == rf f(z) 2rz(2 十 yor) 


dz 一 N(p,a7), (1.3.4) 


其 中 , ab = GEM. 而 上 和 o? 可 由 定理 1.2.9 或 郑 术 其 (2009) 中 的 例 3.1 导 
出 , SUED 


=1 (c2 一 d?)h? 
ae log fe — yod)? ); 
c 


,2 
— d2 


) = 2log (VEn vin Tuan 


4V (vy2 + yb) (y2 + ya) 


1 F 
“d=3( 14 #54 1+ Ba). 
2\V yı V yı 


a? —2log (= 


1.3 ”大 维 数据 分 析 “15. 


令 s(z) 表示 F 的 LSD 的 Stieltjes 变换 , s(z) = 一 H1 | ys(z): 注意 到 f(0) = 0， 


则 有 


Se Segre Tit aA ee) epee ee 


2na(yy + a. 
=~ 35 $ $@)ale)ae, 
其 中 , C 是 包围 且 充 分 接近 区 间 [fo, 刀 的 一 个 围 道 . (2009) 的 方法 作 如 


TEL 
wee (1 + RE) (RE + y2)’ E(1— y) 
其 中 , |g) = 1, WA 
h(€? — 1) 
f(x) = log(|e+dé|?), dz = U- pE dé, 
所 以 得 到 
of f(a) (1 — y2)y (b — 2) (x — a) (1 = ya) V(b — 2)(z — a) | 
Qnty +zy2) 
ek odp EED ae 
= Bart faai St BERET rE 
nyh? 62-1 1-@ 
~ ant A peer a Gc: FaF + ht FDE Į p)“ 


_ nyh? tf 2 ane ay = (ch dy2) 2 ,2 
= (-ż log(c*) + 一 -一 一 lo e (oe + i (en) 


- 区 iog(e- a. 


o yı + y2 c—dyz/h\ yi(l~ y2) c 
=n} (2n log(c dh) + y2 log ( c—dh ) Y2 log (z 一 a) ` 


以 上 计算 第 二 个 等 号 时 用 到 了 log(|c + del?) A log((c + dé)?) 的 实 部 的 事实 , 故 当 
1 =1, 即 eae" 时 ， 
log(le + dél?) = 5 (log((e + dé)?) + log( (e+ dé")?)). 


然后 , 对 于 log((c + dé-*)?) 的 积分 , 作 E 一 的 变量 代 换 . 注意 , 这 个 变量 代 换 
使 得 围 道 走向 反方 向 . 

有 了 式 (1.3.4) 给 出 的 中 心 极限 定理 , 就 可 以 用 它 来 检验 统计 假设 Ho. 称 这 个 
方法 为 修正 的 似 然 比 检验 . 

2. 渐 近 正 态 检验 


由 于 似 然 比 统 计量 要 求 p < n 一 g, 修正 的 似 然 比 检验 仍然 有 上 述 限制 . 参照 白 
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志 东 与 Saranadasa 的 方法 , 考虑 下 述 统计 方 法 : 考虑 B 的 估计 . 由 式 (1.3.1) 得 


nm n 
T? 1 一 1 1 —1 —1 
= > Xz Anis E > Xiz Az A21 A1i.2- 


i=1 i=1 
定义 _ 
Mau = tr((B — B')(B, — B})'), 


Mn2 = tr((Bi 一 Bi)Ai12(B! 一 B})'). 
前 面 已 经 提 到 BE B 的 无 偏 估计 , 故 在 原 假设 成 立时 , PB, = By. 因此 ， 


EMn:ı 一 tr( 马 )tr(4 记 2)， (1.3.5) 
EMn2=tr(), (1.3.6) 
on, := Var(Mn1) =2tr( X’ )tr( A72) + B2Ber, (1.3.7) 
a? := Var(Mn2) =2qtr(Z?) + Br B22, (1.3.8) 


其 中 ， 
Br = Ele)? — (tr(Z))? — 2tr( X°), 


Bar => (zi — zi2 A22 An) Ait:2(zi — Al2 Az2 zi2)]?, 


Pz2 = doles — zf2422 A21) ATi:2 (zi — 4l2422 zi2)]?. 


i=1 


于 是 有 如 下 中 心 极限 定理 . 为 使 该 定理 具有 更 广泛 的 应 用 , REA 
的 条 件 . 记 
Zin = Ana”? (za - AvAgz2), k=1,2. 


定理 1.3.1 假设 下 述 条 件 成 立 : 
(1) max(qı, p, n = q) 一 00; 
(2) 当 p— oo 时 , tr( X?) = o((tr X)?); 
(3) max Zi. Zir = o([tr (ATS S)]); 
(4) si 为 均值 为 0 的 iid 随机 向 量 , HASTE n> 0 HER K>O 满足 
E(e\€2)? < K(tr(Z”)), 
max B(e1e2)?1 (leveal > nVtr( ARE > )tr(E?)/|ZinZsal) = ofr? (te(B?)), 
E(e\e, — tr(Z))? < Ktr(D?), 
Beyer — tr(8))?I (lever — tr(5)| > ny Bextr(E?)/Zy, Zin) = o(n?te(E)), 
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则 对 任何 k= 1,2 有 Mak —-EMn 9 


4, N(0,1). 
Onk 


证 明 ”不 失 一 般 性 , 假定 真 值 B = 0, 即 


Mnk — EMnk = 》 Zi Zin (ele: — tr(Z)) + 》 Zi Zjneies- 
i=1 ify 


可 以 选择 7 = mn 一 0, 并 且 使 得 条 件 (2) 中 的 相应 极限 成 立 . 定义 


i —tr(Z), lesei— tr(¥)| < ny Betr( 27) Zi, Zir 
Ui = 


0, 否则 ， 
eles, leteil < ny tr(Agey ”)tr(E?)/|Zi, Ziel, 
Uij = 
A 否则 


以 及 
Mnk = 2 Zi Zikvi + >, Zin Zjkviz- 
ižj 


注意 到 3 Zin ZntA”), P (Zu Zin) = Bea MY (Zoe! —ee( Arte”), 
则 有 ` 
P(Mnkz # Mnk — EMnk) 
< > P (|e!e —tr(X’)| >n Beutt(E?)/Zip Zir) 


+ 9 P(letes > my (Arey ”)tr(B?)/| ZZ sel) 
if 


n (ZikZik) Eleje 一 tr(2)/?)7 (leer — tr(Z)| >n Bentr(E?)/Zi, Zir) 
< 2; Coo Pol a 
= Buxtr(D?) 
(Zi, Zik)? B(e4e2)"1 (leiesl > ny tr( Arry )tr(B")/|Zi Ze!) 
T pa ey ee 也 | 
ij WPA 2  (tr(2°)) 
=o(1), 
故 加 Mok 和 Mok 有 相同 的 极限 分 布 . 其 次 
[EM _| Zin Zin B(eer — te(Z))I(leher — tr(B)] > ny Bexte(B”)/Zin Zit) 
Onk rae Onk 
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Zip jx Bleiea)I (leiezl > ny te( Arig ”)tr(E)/|ZieZ sal) 


Onk 


+2 


fj 
n. (Zin Zin)? B(ejer—tr(¥))? (jeher —tr(B)| > my Bett(B?)/ Zig Zin) 


< 
i=l ny Bztr(Z?)onk 


(Zi, Zik)? B(ehe2)*T (lejesl > ny tr( AES ”)tr(2?)/1ZinZ sel) 


+ =< 
iF) ny tr(A S )tr(E”)onk 


Mnk = EMnx 
Onk 


所 以 只 需 证 明 


以 下 证 明 使 用 矩 收敛 法 . He > 2 为 一 整数 . 下 面 估计 E(M — EM,)*. 为 此 ， 
画 一 个 上 条 边 的 图 . 每 条 边 的 顶点 可 以 在 {1,2,:… ,n} PRA, 允许 重复 . 如 果 一 
条 边 的 两 个 顶点 取 相 同 的 值 , 称 它 为 环 (loop); 否则 , 称 之 为 桥 (bridge). 环 (i,i) 对 
应 于 项 QQBik(ui — Eui). BF (i,j) MMF ZZ 54 (viz 一 Evij). 这 样 一 来 , 每 个 
图 对 应 于 E(Mnk 一 Mn) 中 的 一 项 . 

很 明显 有 如 下 事实 成 立 : 如 果 一 个 点 只 和 一 个 环 或 一 个 桥 连接 , 则 该 项 的 均值 
为 0, 故 只 需 考虑 每 个 顶点 的 重复 度数 至 少 为 2 的 图 对 应 的 项 . 如 果 有 一 个 顶点 连 
接 三 个 或 三 个 以 上 的 边 (包括 环 和 桥 ), 则 利用 截 尾 的 性 质 来 估计 . 可 以 证 明 
o(of,.), Z FEAR, 
lllok, (1 十 o(1))，《 上 是 偶数 ， 
从 而 定理 得 到 证 明 . 为 了 节省 篇 幅 , 省 去 证 明 的 细节 . 有 兴趣 的 读者 , 可 以 参见 文 
献 ( 白 志 东 和 姚 剑 锋 , 2008), 那里 使 用 了 类 似 的 方法 . 


为 使 用 这 个 定理 , 需要 找到 EM 和 02, 的 合适 的 估计 量 . 建议 在 BM 和 
o2, 的 表达 式 中 使 用 


一 N(0,1). 


万 (M — EMn) = | 


以 及 
tr( X2) = tr (52) ) : 
定理 1.3.2 ”假设 定理 1.3.1 的 条 件 成 立 , MA 
Mn 一 五 MA 2 
Onk 


利用 定理 1.3.2, 可 以 对 统计 假设 Ho 进行 非 精 确 检 验 . 


N(0,1). 
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1.3.3 LRT, 修正 的 LRT 以 及 非 精 确 检验 的 模拟 比较 

如 上 所 述 , 不 能 对 LRT 给 以 精确 检验 , 在 模拟 比较 中 , 对 LRT 只 使 用 Wilks 定 
GRU. 本 节令 述 以 上 4 种 检验 方法 的 第 一 类 误差 和 功效 的 比较 : 似 然 比 检验 记 
HE LRT, 修正 的 似 然 比 检验 记 作 CLRT, 两 种 非 精 确 检 验 分 别 记 作 ST1 和 ST2. AE 
中 心 化 参数 记 作 coBo, 其 中 , Bo = cj1tr(B1 -Bi)'5 1(B,—B}), Ti co? (B1—B}) 
的 元 素 服从 N(1,1). 误差 项 服从 多 元 正 态 N(0, 2°), 其 中 ， 


p P e pP? 

1 APs ~2 

Ba o E 
pP- pr? pr3 .1 


设计 和 矩阵 Z 中 的 元 素 为 id N(1,0.5). 对 于 每 一 种 情形 , 进行 1000 次 独立 重复 试验 
来 估计 各 种 检验 方法 的 第 一 类 误差 和 功效 , 其 中 , 常数 co = 0,0.001, 0.002, --- ,0.01. 

如 前 所 述 , 两 种 非 精确 检验 依赖 于 变量 的 协 方 差 阵 , 而 两 种 LRT 则 不 依赖 . 为 
此 , 选取 p = 0.9 和 0 两 种 情形 , 由 以 下 给 出 的 模拟 结果 可 以 看 出 : 

(1) LRT 的 第 一 类 误差 全 部 为 1. 虽然 功效 高 , 但 也 不 是 好 的 检验 方法 ; 

(2) CLRT 的 第 一 类 误差 比较 稳定 ; 

(3) ST2 和 CLRT 在 任何 情况 下 都 比 ST2 好 ; 

(4) 5 S = I Hf, ST2 比 CLRT 更 有 功效 , 而 当 允 的 p =0.9 时 , CLRT 远 比 
ST2 更 有 功效 . 这 说 明 ST2, ST1 对 D 接近 了 的 要 求 比 较 敏 感 . 当 允 接近 了 时 ， 
最 好 应 用 ST2; 否则 , 最 好 应 用 CLRT. 

表 1.1~ 表 1.4 是 针对 E =I, p ==0 的 情形 . 


表 1.1 大 维 数据 的 4 种 检验 方法 的 比较 
(p = 10,n = 100, g = 50, qı = 30,p = 0) 


LRT CLRT ST1 ST2 
第 -- 类 误差 1 0.056 0.061 0.083 
功效 co = 0.01 1 0.062 0.066 0.087 
功效 co = 0.02 1 0.076 0.073 0.121 
功效 co = 0.03 1 0.107 0.090 0.169 
功效 co = 0.04 1 0.176 0.103 0.281 
功效 co = 0.05 1 0.278 0.138 0.417 
功效 co = 0.06 1 0.418 0.170 0.635 
功效 co = 0.07 1 0.628 0.227 0.844 
功效 co = 0.08 1 0.784 0.309 0.949 
功效 co = 0.09 1 0.899 0.448 0.989 
功效 co = 0.10 1 0.960 0.563 0.998 
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表 1.2 ”大 维 数据 的 4 种 检验 方法 的 比较 ( 续 ) 
(p = 20,n = 100, g = 60, qi = 50, p = 0) 


LRT CLRT ST1 ST2 
第 一 类 误差 1 0.058 0.063 0.083 
功效 co = 0.005 1 0.063 0.063 0.091 
功效 co = 0.010 1 0.083 0.063 0.121 
功效 co = 0.015 1 0.111 0.064 0.200 
功效 co = 0.020 1 0.163 0.071 0.314 
功效 co = 0.025 1 0.228 0.082 0.526 
功效 co = 0.030 1 0.315 0.089 0.726 
功效 co = 0.035 1 0.424 0.104 0.903 
功效 co = 0.040 1 0.546 0.116 0.984 
功效 co = 0.045 1 0.651 0.132 1 
功效 co = 0.050 1 0.751 0.159 1 

表 1.3 大 维 数据 的 4 种 检验 方法 的 比较 ( 续 ) 
(p = 30, n = 200, q = 80, qı = 60, p = 0) 

LRT CLRT ST1 ST2 
第 一 类 误差 1 0.052 0.047 0.065 
功效 co = 0.003 1 0.055 0.048 0.073 
功效 co = 0.006 1 0.074 0.050 0.087 
功效 co = 0.009 1 0.102 0.058 0.129 
功效 co = 0.012 1 0.156 0.064 0.213 
功效 co = 0.015 1 0.239 0.077 0.350 
功效 co = 0.018 1 0.355 0.095 0.551 
功效 co = 0.021 1 0.482 0.122 0.744 
功效 co = 0.024 1 0.615 0.159 0.904 
功效 co = 0.027 1 0.760 0.217 0.977 
功效 co = 0.030 1 0.874 0.281 0.999 

表 1.4 ”大 维 数据 的 4 种 检验 方法 的 比较 ( 续 ) 
(p = 50, n = 200, q = 80, qı = 70, p = 0) 

LRT CLRT ST1 ST2 
第 一 类 误差 1 0.049 0.038 0.049 
功效 co = 0.003 1 0.057 0.040 0.066 
功效 co = 0.006 1 0.108 0.041 0.124 
功效 co = 0.009 1 0.201 0.048 0.297 
功效 co = 0.012 1 0.322 0.057 0.648 
功效 co = 0.015 1 0.482 0.074 0.916 
功效 co = 0.018 1 0.679 0.101 0.996 
功效 co = 0.021 1 0.812 0.143 1 
功效 co = 0.024 1 0.904 0.194 1 
功效 co = 0.027 1 0.962 0.273 1 
功效 co = 0.030 1 0.988 0.375 1 
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# 1.5~ 表 1.8 是 针对 DAI p= 0.9 的 情形 . 


表 1.5 “大 维 数据 的 4 种 检验 方法 的 比较 
(p = 10,n = 100, g = 50, gi = 30, p = 0.9) 


LRT CLRT ST1 ST2 
第 一 类 误差 1 0.057 0.098 0.130 
功效 co = 0.003 1 0.062 0.098 0.131 
功效 co = 0.006 1 0.076 0.098 0.131 
功效 co = 0.009 1 0.098 . 0.098 0.133 
功效 co = 0.012 1 0.153 0.099 0.133 
功效 co = 0.015 1 0.232 0.099 0.133 
功效 co = 0.018 1 0.374 0.099 0.134 
功效 co = 0.021 1 0.527 0.099 0.134 
功效 co = 0.024 1 0.691 0.099 0.136 
功效 co = 0.027 1 0.849 0.099 0.136 
功效 co = 0.030 1 0.940 0.100 0.137 
92.1.6 大 维 数据 的 4 种 检验 方法 的 比较 ( 续 ) 

(p = 20,n = 100, g = 60, gi = 50, p = 0.9) 
LRT CLRT ST1 ST2 
第 一 类 误差 1 0.062 0.115 0.175 
功效 co = 0.003 1 0.065 0.115 0.175 
功效 co = 0.006 1 0.095 0.115 0.177 
功效 co = 0.009 1 0.152 0.115 0.181 
功效 co = 0.012 1 0.275 0.115 0.184 
功效 co = 0.015 1 0.478 0.115 0.188 
功效 co = 0.018 1 0.683 0.116 0.194 
功效 co = 0.021 1 0.874 0.117 0.201 
功效 co = 0.024 1 0.969 0.117 0.207 
功效 co = 0.027 1 0.998 0.118 0.214 
功效 co = 0.030 1 1 0.119 0.226 

表 1.7 大 维 数据 的 4 种 检验 方法 的 比较 ( 续 ) 

(p = 30, n = 200, q = 80, qı = 60, p = 0.9) 
LRT CLRT ST1 ST2 
第 一 类 误差 1 0.049 0.096 0.109 
功效 co = 0.001 1 0.051 0.096 0.109 
功效 co = 0.002 1 0.059 0.096 0.109 
功效 co = 0.003 1 0.082 0.097 0.111 
功效 co = 0.004 1 0.127 0.097 0.111 
功效 co = 0.005 1 0.183 0.097 0.111 
功效 co = 0.006 1 0.283 0.097 0.111 
功效 co = 0.007 1 0.410 0.097 0.111 
功效 co = 0.008 1 0.561 0.097 0.112 
功效 co = 0.009 1 0.720 0.097 0.115 
功效 co = 0.010 1 0.858 0.097 Q.115 
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表 1.8 大 维 数据 的 4 种 检验 方法 的 比较 ( 续 ) 
(p = 50, n = 200, q = 80, gq: = 70, p = 0.9) 


LRT CLRT ST1 ST2 

第 一 类 误差 1 0.051 0.101 0.114 
功效 co = 0.001 1 0.055 0.101 0.114 
功效 co = 0.002 1 0.070 0.101 0.115 
功效 co = 0.003 1 0.102 0.101 0.115 
功效 co = 0.004 1 0.162 0.101 0.115 
功效 co = 0.005 1 0.272 0.101 0.115 
功效 co = 0.006 1 0.430 0.102 0.116 
功效 co = 0.007 1 0.639 0.102 0.119 
功效 co = 0.008 1 0.817 0.102 0.119 
功效 co = 0.009 1 0.939 0.103 0.120 
功效 co = 0.010 1 0.987 0.103 0.124 
p= 10, n= 100, q = 50, q, = 30 p= 20, n= 100, q = 60, gq = 50 


0.00 0.02 0.04 0.06 0.08 0.10 0.00 0.01 0.02 0.03 0.04 0.05 
非 中 心 参数 m 的 变化 非 中 心 参数 co 的 变化 
图 1.1 LRT, CLRT, ST1, ST2 的 第 一 类 误差 和 功效 的 比较 (其 中 , p = 0) 
p = 30, n = 200, q = 80, q = 60 p = 50, n = 200, g = 80, q = 70 


功效 


0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.000 0.005 0.010 0.015 0.020 0.025 0.030 
TEP DBM cy 的 变化 非 中 心 参数 cy 的 变化 


图 1.2 LRT, CLRT, ST1, ST2 的 第 一 类 误差 和 功效 的 比较 (其 中 , p = 0) 
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p= 10, n= 100, g = 50, q, = 30 p= 20, n= 100, q = 60, q = 50 


0.000 0.005 0.010 0.015 0.020 0.025 0.030 0.000 0.005 0.010 0.015 0.020 0.025 0.030 
非 中 心 参数 co 的 变化 非 中 心 参数 a 的 变化 


图 1.3 LRT, CLRT, ST1, ST2 的 第 一 类 误差 和 功效 的 比较 (其 中 , p = 0.9) 


p = 30, n= 200, q = 80, q = 60 p = 50, n = 200, g = 80, qı = 70 


0.000 0.002 0.004 0.006 0.008 0.010 0.000 0.002 0.004 0.006 0.008 0.010 
非 中 心 参数 m 的 变化 非 中 心 参数 oo 的 变化 


1.4 LRT, CLRT, ST1, ST2 的 第 一 类 误差 和 功效 的 比较 (其 中 , p = 0.9) 


1.3.4 ”关于 变异 的 统计 分 析 


多 元 分 析 的 另 一 个 重要 课题 是 关于 随机 向 量 散布 的 程度 , 即 协 方差 阵 的 检验 . 
与 均值 问题 类 似 , 也 有 如 下 问题 : 

一 样本 协 方差 检验 的 问题 是 检验 总 体 的 协 方差 阵 等 于 一 个 给 定 值 , 即 Ho: X = 
Z'o; 

两 样本 协 方差 检验 的 问题 是 检验 两 个 总 体 的 协 方差 阵 相 等 , 即 Ho : Di = Lo; 

多 样本 协 方差 检验 的 问题 是 检验 数 个 总 体 的 协 方差 阵 相 等 , 即 Ho : 2) = …: 
= Dk. 

对 于 一 样本 问题 , 经 过 样本 的 简单 变换 , 原 假 设 可 以 写成 Ho : S= 工 这 时 ， 
—2 倍 的 log-LRT 为 
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LI, = n(tr(Sn) E log(| Sn|) = D) ™ Xi ptp+1))° 
对 于 多 样本 问题 , 其 -2 FH log-LRT 为 


天 
LL, = n (log ( ) -c mg(5 旋 ) ~ Xi (k-1)p(p+1) 
一 = 


k 
So 6S; 
j=l 

其 中 , n= ni t- ne, cj =n;/n, 而 Sj EB j 个 样本 的 样本 协 方差 阵 . 

当 样 本 来 自 正 态 分 布 总 体 时 , 虽然 其 精确 分 布 可 以 形式 地 写 出 来 , 但 是 当 维 数 
p 比较 大 时 , 具体 计算 假设 检验 的 临界 值 还 是 很 困难 的 . 因此 , 在 实际 应 用 中 , 通常 
还 是 使 用 Wilks CEB. 以 上 结果 均 可 以 在 Anderson 的 《多 元 统计 分 析 引 论 》 
中 找到 . 

现在 讨论 p 相对 于 n 不 是 很 小 时 的 情况 . 模拟 结果 显示 当 p= 10 IN, 即使 n 
大 到 500 或 1000, 第 一 类 误差 也 会 明显 大 于 指定 的 0.05. 4p = 50 时 , 第 一 类 误差 
可 以 比 给 定 值 大 3~5 倍 . 当 p 接近 于 n 时, log-LRT 就 变 成 了 金良 笔下 的 包 不 同 
先生 , 无 论 原 假设 是 什么 , 检验 结果 一 定 是 否定 的 . 这 就 说 明了 由 古典 极限 定理 建 
立 起 来 的 统计 方法 是 不 能 应 用 于 大 维 数据 分 析 的 . 

1. 修正 的 似 然 比 检 验 

BR k 样本 等 方差 检验 也 可 以 写成 kk 一 1 个 下 矩阵 的 函数 , 但 是 当 k > 2 时 ， 
几 个 下 矩阵 的 线性 谱 统计 量 的 极限 联合 分 布 尚未 知 , 故 暂 时 讨论 k= 2 的 情形 . 这 
时 可 以 把 LL 改写 成 

LLz=g(Fn), g(t) =m [e + Y2 log(y2z + y1) — log(z)| + nlog(nn2/np). 
(1.3.9) 

显然 , LRT 等 价 于 应 用 F 矩阵 的 线性 谱 统计 量 b;, = f( Fn) 给 出 的 假设 检验 当 tn 


比较 大 时 , 拒绝 Ho, 其 中 , f(x) = log x — log(y2x + yi). MARREK AR 


有 
T, := f(Fn) = Pity ye) ZH ay N(0, 1), (1.3.10) 
其 中 ， 
十 1 一 1— 
Fony) = log (BAM) + Hog — yp) + log(l — y1), 


1 h? y2 l- y 
= = |log (一 一 一 一 一 一 ) 一 1 
zl Serres (ern) yı + Yo og (于 全 


2y2 2y? + 
go2=—— 2 eb = uy) - — log(l 一 2) 一 2 Yı T Y2 
og( yı) (yi 十 y2)? og( y2) log ( h2 ), 


(yı + y2)? 
h? =y; + yo — y1Yr- 


如 果 T, > za, 则 修正 的 log-LRT 拒绝 原 假 设 Ho. 
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2. 渐 近 正 态 检验 
考虑 k 样本 的 方差 齐 性 检验 . 设 S。( = 1,… ,) DHA 个 样本 的 样本 协 
方差 阵 . 定义 
= 》 tr((Sn, — Sn,)), 
i<j 


Schott (2007) 研究 了 上 述 形式 的 极限 定理 他 假定 对 任何 i > 1, 


lim ir) = yi E (0,00), (1.3.11) 
并 定义 
tes). (Sn ~ Sn,)?) — (mum) nili — 2)tr(S2,) + n2tr((Sn,)?)] 
i<j 
—(njnj)~* {nj (nj — 2)tr(S7) + n3 (tr(S;))?]) 
= [{1 — (ni — 2)/ni}tr(S2,,) + {1 — (nj — 2)/n;}tr($3) 


i<j 
~2tr(Sn,Sn,;) — ning {tr(Sn,)}? 一 njn; {tr(Sn,)}"I, (1.3.12) 


其 中 ,mi = (ni 十 2)(ni — 1). 他 在 多 元 正 态 假 定 下 , 证 明了 如 下 定理 : 
定理 1.3.3 ”如 果 条 件 (1.3.11) 成 立 , 则 tnp > N(0,07), 其 中 ， 


k 
02=D Albi + bj)? + (k — 1)(k — 2) > 40298, 
i<j i=l 
bj =lim p/n; € [0, 00). 


注 Schott 定义 的 tnp 本 质 上 就 是 Mn — EM. 根据 他 的 定义 , Var( Mn) > 0°. 
为 了 应 用 定理 1.3.3， o? 的 相合 估计 . 显然 , o? 可 以 用 


62 = [E (ares = eat) + yoni] ITET ES 全 :tr(swJP 


来 估计 , 其 中 , S 是 综合 样本 协 方差 阵 . 
1.3.5 ”大 维 数据 变异 量 分 析 三 种 检验 的 模拟 比较 


本 节 考 虑 1.3.4 小 节 介 绍 的 两 样本 协 方差 阵 相 等 的 三 种 假设 检验 的 模拟 比较 ， 
即 似 然 比 检验 (LRT)、 修 正 的 似 然 比 检验 (CLRT) 和 Schott 的 非 精 确 检 验 (SST). 
比较 三 种 检验 方法 的 第 一 类 误差 和 功效 . 在 模拟 计算 中 , X 变量 由 N(0, 7) 中 抽 
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取 , 而 Y 变量 由 N0, 允 ) 中 抽取 , 其 中 , 允 = diag (1+co//m). 和 均值 情况 相似 ， 
对 于 每 种 情况 重复 1000 次 来 估计 功效 和 第 一 类 误差 . 模拟 结果 由 表 1.9 和 图 1.5 


给 出 . 、 
表 1.9 ”大 维 数据 的 4 种 检验 方法 的 比较 


(p = 50, nı = 100, n2 = 100) 


LRT CLRT SST 
第 一 类 误差 1 0.095 0.041 
功效 co = 2 1 0.255 0.203 
功效 co = 2.3 1 0.298 0.265 
功效 co = 2.6 1 0.339 0.342 
功效 co = 2.9 1 0.411 0.459 
功效 co = 3.2 1 0.497 0.589 
功效 co = 3.5 1 0.589 0.693 
功效 co = 3.8 1 0.708 0.811 
功效 co = 4.1 1 0.740 0.867 
功效 co = 4.4 1 0.825 0.923 
功效 co = 4.7 1 0.898 0.969 


p= 50，m = 100, m= 100 


0 1 2 3 4 
参数 am 的 变化 
图 1.5 两 样本 协 方差 问题 的 LRT, CLRT 和 SST 三 种 检验 方法 的 比较 


由 上 述 模拟 结果 可 以 看 出 由 Wilks 定理 逼近 的 古典 LRT 会 以 概率 1 拒绝 真 
实 原 假设 , 故 对 于 大 维 数 据 分 析 来 说 , 不 是 一 个 好 的 检验 . 修正 的 LRT 比 Wilks 定 
FURIE LRT 好 多 了 . 在 通常 情况 下 , Schott 提出 的 非 精确 检验 有 比较 好 的 第 一 
类 误差 和 功效 , 但 是 它 依赖 于 真 的 协 方差 阵 . 特别 地 , 指出 Schott 的 非 精确 检验 强 
烈 地 依赖 于 真 的 随机 变量 的 4 阶 矩 等 于 3c2 的 条 件 ( 正 态 分 布 的 4 ME). 修正 的 
LRT 不 依赖 于 真实 的 协 方差 阵 . 这 里 提供 的 上 述 结果 也 是 在 4 MEEF 30? 的 条 
件 下 推导 出 来 的 . “SSR URI AAR (2009) 的 结果 , 也 可 以 推导 出 一 般 情 况 下 的 
中 心 极 限定 理 . 在 这 一 方面 , 修正 的 LRT (RF Schott 的 非 精 确 检验 , 但 它 强烈 地 
要 求 两 个 自由 度 都 大 于 矩阵 的 维 数 . 另外 , 在 通常 情况 下 , 它 不 如 Schott 检验 更 有 
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功效 . . 
由 以 上 分 析 来 看 , 大 维 数据 的 变异 分 析 还 有 必要 进行 进一步 的 研究 . 白 志 东 认 
为 对 于 Schott 非 精确 检验 进一步 改进 , 使 之 具有 更 好 的 稳健 性 和 功效 应 该 是 很 有 意 
义 的 . 

1.3.6 ”大 维 判 别 分 析 


判别 分 析 是 多 元 统计 分 析 中 的 一 项 重要 课题 . 它 的 典型 数学 描述 如 下 : 设 (0, X) 
为 一 个 p+ 1 维 随机 向 量 , 其 分 布 为 


P(6=i)=m, Xļozi ~ fi(Œ), +=1,2,---,k, 


其 中 , ffe 为 个 互 不 相同 的 概率 密度 函数 . 现在 假定 得 到 一 个 X 的 观测 值 
z, 希望 知道 9 的 值 . 换 句 话说 , 如 果 把 户 ，…… ,fi 看 成 个 不 同 的 总 体 , 希望 知道 
s 来 源 于 哪个 总 体 . 

如 果 所,… ,大 和 th,… ,mk 均 为 已 知 , 则 最 好 的 判别 分 析 为 Bayes 判别 , 即 
把 0 判 为 其 中 ,了 = argfmgxtmifi(z)} 如 果 个 总 体 是 以 概率 1 可 区 分 的 , BD 
{a ER? 3i Fj, En fi(x) =r; fj(w)} 的 Lebesgue 测度 为 0, 则 Bayes 判别 以 概率 1 
是 唯一 确定 的 . 如 果 记 Rj = {x € Rr; fils) = max(ri fi(a))}, 则 当 z e R; 时 , Al 
0 为 j. 

在 实际 应 用 中 , 通常 假定 及 ,… , f 和 m, ,mk 全 部 或 部 分 为 未 知 . 这 时 需 
要 利用 历史 资料 , 或 称 为 训练 样本 , 对 其 进行 估计 , 然后 使 用 估计 的 有 1,…. ,大 和 
Ti ,Tk 进行 判别 分 析 . 

如 果 对 fro, fe 不 作 任何 假定 , 则 称 之 为 非 参数 判别 分 析 . 在 多 元 统计 分 析 
中 , 通常 假定 k 个 总 体 为 多 元 正 态 分 布 N,(p;, Xi) 根据 D: 相同 或 不 同 , 有 线性 
判别 分 析 或 二 次 判别 分 析 . 线性 判别 分 析 也 称 为 Fisher 判别 . 

为 了 举例 说 明 大 维 判 别 分 析 和 经 典 判别 分 析 的 区 别 , 考虑 天 = 2, ma = m = 1/2 
及 Xi = Do 的 特例 . 这 时 的 Fisher 判别 函数 为 


"Or (= me + u2)) pa fy 


也 就 是 说 , 当 w) > 0 时 , 判 6 = 2; 否则 , Alo = 1. 
当 Hı, He 和 x 未 知 ， 但 有 训练 样本 {eis mx 1,2,4 = Was ni} 时 ， Hi, H2 和 
S 可 以 用 样本 值 
7 1 ni 1 7 de! 
Ti = T 22i: Sn = ntn- 2 Les — Ki)(Ti — ži) 


来 代替 , 即 判别 函数 为 
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wala) = (2-38 + 8) ) S71 (m1 ~ 2a), 


即 当 w(xw) > 0 时 , 判 6 = 2; AM, Al 9=1. 

经 典 的 统计 分 析 理 论 已 经 证 明 上 述 经 验 判 别 与 似 然 比 判别 非常 近似 . 当 p Al 
定 而 min(n1,n2) 一 oo RF, Se 也 就 是 说 , 其 错 判 概率 趋 
向 于 Bayes 判别 的 错 判 概率 . 

但 是 如 同 前 两 节 指出 的 , 当 p > ni 十 nz 一 2 时 , S, AAW, 故 wla) 没有 定义 ， 
需要 另 寻 判别 方法 . 另 一 方面 , 在 实际 应 用 中 , 什么 叫 “ 固定 而 min(n1,n2) 一 oo” 
是 一 件 无 法 说 清楚 的 事情 , 这 是 因为 p 和 ny, no 都 是 给 定 的 . 例如 , ni = n2 = 1000, 
当然 p = 2 可 以 认为 p 是 固定 的 , 但 p = 50, 100 或 500 E? Nin, 4 p = 100 
时 , 经 验 判 别 分 析 方 法 是 否 是 最 好 的 呢 ? Saranadasa (1993) 和 成 玉 (2004) 明确 指 
出 , 当 p 和 ni no 成 比例 增加 时 , 存在 比 经 验 判别 方法 更 好 的 判别 方法 .他 们 指 
出 以 1 / 
b(n) = (0 — 5(@1 +22)) (@ — 2) 

的 正 负 号 决定 的 判别 分 析 方 法 , 在 非常 宽 的 条 件 下 , 优 于 经 验 判别 分 析 方 法 . 成 玉 
的 文章 提供 了 在 协 方差 阵 不 相等 时 , 经 验 二 次 判别 与 大 维 判别 方法 的 模拟 比较 , 如 
K 1.10 所 示 . 


表 1.10 经验 判别 与 大 维 判别 在 协 方差 不 相等 时 的 比较 
P(tin(w)<0|9=1) P(tin(w)>0|9=2) P(dn(w)<0|9=2) P(dn(x) >0|0=2) 


二 0 0.2587 0.0482 0.0257 0.0934 
ni = n2 = 13 
p= 10, š 
0.0039 0.0649 0.0035 0.0063 
nı = n = 20 
= 10, 
0.0247 0.0190 0.0443 0.0697 
nı = n2 = 40 
p= 15, 
0.0491 0.1245 0.0463 0.0102 
nı = n2 = 20 
p = 15, : 
0.0716 0.0069 0.0070 0.0042 
nı = n2 = 30 
p= 15, 
0.0218 0.0068 0.0200 0.0581 
nı = nz = 60 
p = 20, 
0.1498 0.0241 0.0173 0.0278 
ny = nz = 27 
p = 20, 
0.1435 0.0080 0.0296 0.0661 
ni = n2 = 40 
p = 20, 
0.0182 0.0087 0.0041 0.0746 
nı = n2 = 80 
p = 30, Á 
0.0872 0.1553 0.0260 0.0164 


ni = n2 = 40 
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1.4 公开 问题 


虽然 随机 和 矩阵 理论 已 经 发 展 了 50 多 年 , 但 是 仍 有 许多 重要 问题 没有 解决 . 有 
些 问 题 不 仅 具 有 重要 的 理论 价值 , 而 且 也 具有 重要 的 应 用 价值 . 下 面 简要 介绍 几 项 
重要 猜想 . 


1.4.1 关于 样本 协 方差 阵 的 Haar 猜想 


随机 矩阵 理论 中 的 一 条 重要 发 现 是 , 在 矩阵 基本 元 素 服从 正 态 分 布 时 成 立 的 结 
果 , 当 和 矩阵 元 素 服从 一 定 矩 条 件 时 也 有 同样 的 结果 成 立 . 这 种 现象 被 称 为 随机 矩阵 
的 归 一 性 (universality). 这 一 现象 在 随机 和 矩阵 的 经 验 谱 分 布 理论 方面 得 到 了 很 好 的 
证 明 , 而 对 于 特征 向 量 和 特征 向 量 矩 阵 方面 , 类 似 的 结论 还 比较 少 . 

众所周知 , Wishart 气 阵 的 特征 向 量 矩 阵 (经 随机 确定 各 列 的 符号 ) 为 Haar( 测 
度 ) 分 布 , RRA Haar 矩阵 Haar 测度 的 一 般 定义 是 拓扑 群 上 的 平移 不 变 测度 . 对 
于 随机 和 矩阵 而 言 , 一 个 实 ( 复 ) 数 矩 阵 Hpxp PRA Haar 矩阵 ,如 果 对 于 任何 正 交 
(H) 矩阵 Upxp, UH, HU 与 H 具有 相同 的 分 布 . 

最 为 精确 的 Haar 猜想 的 数学 描述 应 该 是 


sup |P(U, € B) - P(H, € B)| 一 0， (1.4.1) 
BEBÈ 


其 中 , BP 表示 p 维 正 交 (A) 和 矩阵 空间 中 所 有 边界 Lebesgue 测度 为 0 的 Borel 集 
合 的 全 体 , U, 为 样本 协 方差 阵 的 特征 向 量 秆 阵 , 而 Hp 为 p 维 实 ( 复 )Haar 和 矩阵 . 

由 于 特征 向 量 矩 阵 的 维 数 在 不 断 增加 , 因此 , 导致 了 数学 描述 上 的 困难 . 相信 
式 (1.4.1) 的 证 明 相当 困难 , 甚至 可 能 不 正确 . 需要 退 一 步 求 其 证 明 . 稍微 弱 一 点 的 
应 该 是 如 下 命题 : 

对 于 任何 p 维 单位 实 ( 复 ) ME tn, Upzn = Yn 近似 于 p 维 单位 球面 上 的 均 
ITA. 

一 个 与 此 等 价 的 命题 如 下 : 

记 Yn 的 分 量 为 (Yn1,… Ynp), A) VPyn1,'… ,VPynp 近似 于 iid 标准 实 ( 复 ) 
ESTA, 即 对 任何 有 界 连续 函数 f 有 


D f (Buns) > EF (Z), a8., (1.4.2) 
t=1 


其 中 , Z 为 标准 实 (A) 正 态 随机 变量 . 

猜想 (1.4.2) 已 经 被 大 量 模 拟 计 算 所 证 实 , 但 理论 上 的 严格 证 明 仍 有 实际 困难 ， 
其 原因 在 于 不 知道 如 何 把 U, A Sn 中 分 离 出 来 , 换言之 , 还 不 能 把 Up 表示 成 Sr 
的 显 式 函 数 . 
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为 使 Haar 猜想 可 以 处 理 , 进一步 把 问题 弱化 . 定义 随机 过 程 


[pt] [pt] 
_ /了 y IN .VD y lzpll? 
A= ‘p> Cs 5) 7 V2\lzpll? (z p ) i (0 


i=1 
假如 y, 是 p 维 单位 球面 上 的 均匀 分 布 , 设 z, 为 由 iid 标准 正 态 分 布 随机 变量 构 
成 的 p 维 随机 向 量 , WES zp/l|zpl| 具有 相同 的 分 布 . 很 容易 证 明 X(t) 趋向 于 
D(0,1) 空间 上 的 标准 Brown 桥 . 因此 , 一 个 弱化 的 Haar 猜想 是 在 矩 条 件 下 证 明 式 
(1.4.3) F Brown 桥 . 

对 于 任何 矩阵 多 项 式 函 数 ( 即 解析 函数 )f 有 


[T FEAA = YENS- SD) aaa 


其 中 , F(z) 是 Sn 的 ESD. 这 样 就 把 随机 过 程 Xn (t), 矩阵 S。 和 给 定向 量 zw 联 
系 起 来 , 从 而 可 以 从 研究 z* F(Sn)zn — str( f(Sn)) AF, 也 就 是 要 证 明 


f * faxm) 2 S ~ f(s)dB(F,(z)), (1.4.5) 
0 0 


其 中 , B(-) 为 D(0, 1) 上 的 标准 Brown 桥 , Fy X Sn 的 LSD, 即 指数 为 y 的 MP 律 . 
Silverstein 于 1979~1989 FEKT 4 篇 论文 , 在 上 述 架 构 下 证 明了 弱化 的 Haar 
猜想 
定理 1.4.1 KRp/n-y, 
(1) 对 所 有 p 维 单位 向 量 £n, 


{VP73( =n Sten — Latsio) b -I ETTO 
2, { f : HABE) 


TX11 = 0, Ez}, 一 i; Ext, = 3; 
(2) 如 果 Tn 取 值 (1,0, tses Pt 和 Dp-12(1， 的 UN 时 都 有 T rd Xn (Fn (x)) 收 
效 于 一 个 随机 变量 , 则 有 Ext, < co 和 Ern =0; i 
(3) 如 果 Ext, < co, 而 E(z1ı — Ez1)*/(Var(x11))? #3, 则 存在 一 列 {an}, 使 


k=1 


当 且 仅 当 


( i zdXn (F(z)), f 2°dXn(Fa(z))) 
REAR AT MSE. 
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上 述 结果 离 弱 Haar 猜想 还 有 一 点 距离 . 定理 1.4.1 只 是 式 (1.4.5) 在 f(x) = x" 
时 的 特例 , 当然 可 以 很 简单 地 推广 到 多 项 式 函 数 , 但 是 上 述 结果 还 不 能 导出 X(t) 一 
B(t). 为 了 实现 弱 Haar 猜想 的 证 明 , Silverstein 于 1990 年 证 明了 如 下 定理 : 

定理 1.4.2 Kp/n yrn 具有 对 称 分 布 和 有 有限 4 HH, 并且 zn RAT 
(+1//p,--- 41/5)’, 则 Xn(t) 2 Bit). 

注 ”与 定理 141 AA, 定理 1.4.2 不 要 求 ru 的 4 SEA HAA, 只 
BER 4 WEAR. 

白 志 东 等 (2007) SRT BRENNA B, = 7'/?5,7)/?, 其 中 ， 
Sa 为 有 一 个 大 小 为 n, 分 量 iid 的 p 维 样本 构造 的 样本 协 方差 阵 . T 为 p 维 非 随 
机 的 非 负 定 矩阵 , X(t) 为 由 B 的 特征 向 量 矩 阵 和 一 个 任 取 的 p 维 单位 向 量 构造 
的 D(0,1) 上 的 随机 过 程 . 证 明了 如 下 定理 : 

定理 1.4.3 i p/n > y, Esn = 0, Elx?,| = 1, Ejz4 | < œ, FT 一 H, 并 且 
zx (Tn — zI) tæn — s(z), 则 


FP" 一 FY”, a.s., 
其 中 , FP AKA 处 赋予 质 量 yal 的 另 一 种 谱 分 布 . 
进一步 研究 由 特征 矩阵 U,, 和 任意 单位 向 量 zn 构造 的 随机 过 程 Gn(z) 的 线 
性 泛 函 的 极限 性 质 . 


定理 1.4.4 ”除了 定理 1.4.3 中 的 假定 条 件 外 , 进一步 假定 
(1) g1,… ,gk 为 定义 在 包含 实 区 间 


(lim inf ATs 1(0,1)(y)(1 — vy)’, lim sup APn (1+ vg)? 


HLF HEERAF ERD 上 的 解析 函数 ; 
1 


(2) pen Vn læ; lerm nn (z)Tr + I) 2, = f irra) imh 0, 
则 下 面 结 论 成 立 : 
(1) 随机 向 量 
(f aana), f udna) 
形成 一 个 紧 序 列 ; 


(2) 如 果 Xn 和 Tr 都 是 实 值 的 , HH Ext, = 3, 上 面 的 随机 向 量 依 分 布 收效 
于 一 个 高 斯 向 量 (Xo,，… Xo), 其 均值 为 0, HUFL BMA 


Re T | (z28(22) 一 Z18(z1))? 
Cov( a Xa) = — 375 £ A 9:(21)95(22) y?z122(z2 一 ae = ane 
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其 中 , 国道 C1 与 C2 互 不 相交 , 都 包含 在 区 域 9 中 且 同 时 包围 区 间 
flim inf AT 3,1(0, 1)(y)(1 一 Vu)? lim sup Amma (1 + Vg 


(3) 如 果 XT, 同时 为 复 值 的 , HLR Erih =0 以 及 Elzult = 2, 则 结 
$ (2) 成 立 , 但 协 方差 函数 是 结论 (2) 时 的 一 半 . 

为 进一步 向 Haar 猜想 逼近 , 有 下 面 的 定理 : 

定理 1.4.5 在 定理 1.4.4 的 假定 外 , 进一步 假定 (rc) 满足 


J dH (t) 7 dH (t) dH (t) 
J (14+ ts(z))(1 + ts(z2)) (1 +ts(z1)) J (1+ ts(z2)) 


则 定理 1.4.4 的 结论 成 立 , 并 且 


=0, 


Cova xo)=2 ( f wleas(@ar"e)— f gilaa” (a) [gwar ). 


注 ”这 个 结论 是 证 明 Haar 猜想 所 必需 的 . 
由 上 述 结果 出 发 , 已 证 明 弱 一 点 Haar 猜想 , 即 G(x) 趋向 于 Brown 桥 . 剩 下 
的 工作 就 是 证 明 Gy 的 紧 性 . 


1.4.2 ”关于 Tracy-Widom 律 的 归 一 性 


如 前 所 述 , 极端 特征 根 的 极限 性 质 在 大 维 随机 矩阵 理论 中 具有 十 分 重要 的 理论 
价值 和 应 用 价值 . 它 在 无 线 通信 理论 中 也 有 十 分 重要 的 应 用 价值 . 在 应 用 方面 的 文 
献 可 参见 文献 ( 白 志 东 等 , 2009) 中 关于 随机 矩阵 理论 在 无 线 通 信 中 的 应 用 部 分 . 

关于 强 极限 的 问题 , ESSER IR. BOAR. Silverstein, Geman 等 获得 . 
进一步 的 深刻 研究 , 首先 由 Tracy 和 Widom 开始 . 他 们 二 人 分 别 于 1993、1994 和 
1996 年 研究 了 关于 Wigner 矩阵 的 这 类 问题 . 当 一 个 Wigner 矩阵 的 所 有 元 素 都 服 
从 实 正 态 分 布 时, 称 之 为 Gauss 正 交 系 (Gaussian orthogonal ensemble, GOE), 这 时 
记 8 = 1; 当 一 个 Wigner 矩阵 的 所 有 元 素 都 服从 复 正 态 分 布 了 时 , 称 之 为 Gauss 
西 系 (Gaussian unitary ensemble, GUE), 这 时 记 8 = 2; 当 一 个 Wigner 55 ME AY AT 
有 元 素 都 服从 四 元 数 体 正 态 分 布 @ 时 , 则 称 之 为 Gauss 偶 对 系 (Gaussian symplectic 
ensemble, GSE), 这 时 记 8 = 4. 他 们 证 明了 如 下 定理 : 


O 所 谓 复 正 态 分 布 是 指 实 部 和 虚 部 服从 iid 的 n(o, 3) 的 复 随机 变量 . 

O 所 谓 四 元 数 体 正太 分 布 是 指 形 如 as 十 bi + cj + dk 的 复数 二 阶 矩 阵 ， 其 中 ，a,b,c,d 服从 
1; -, (1 9\ ,_fi O} ,_ f° Ns a Ye ‘ 
iid n(0,5): 而 Ia = (。 in (6 “i j= Ge 0) 以 及 大 = \ D 因此 ,所谓 


的 n Br Wigner GSE 是 指 一 个 n x n 的 四 元 数 分 块 矩阵 ， 故 为 一 个 2n x 2n 的 Wigner MRF, 其 2m 个 
特征 根 均 为 实数 且 重 数 皆 为 2, 故 有 n 个 互 不 相同 的 实 特征 根 . 


14 公开 问题 .33. 


定理 1.4.6 在 正 态 分 布 假定 下 ， n2/3 (Mmax(n—1/2Wn) - 2) 的 极限 分 布 为 
B(= 1,2,4) 的 Tracy-Widom #, ADA BA Fa(s) 由 下 式 给 出 : 


F(s) =exp (- ; “e 一 sre) , (1.4.6) 
F\(s) =exp (-5 / ee jaz) [Fo(s)}'/2, (1.4.7) 
= ) =cosh (-3/ ; [ aac) [Fo(s)]*/2, (1.4.8) 
HP, q(s) 为 第 二 类 PainlevA 
q" =sq+2q° 


满足 边界 条 件 
d(s) ~ Ai(s), s 一 +00 
的 唯一 解 , 其 中 , Ai(s) 表示 Airy 函数 . 
Tracy-Widom 律 (简称 TW 律 ) 的 分 布 性 状 如 图 1.6 所 示 . 


-4 -2 0 2 
图 16 4 8=1,2,4 时 , Fo 的 密度 函数 


有 趣 的 是 Wishart 矩阵 的 最 大 特征 根 经 规范 化 以 后 也 渐 近 服从 TW 律 . John- 
stone (2001) 证 明了 下 述 定理 : 

定理 1.4.7 假定 Amax 表示 一 个 实 Wishart 4M W (n, Ip) 的 最 大 特征 根 . 记 

Mn,p =(Vn—1+ vp)’, 

=(Vn—1+ vp) (= 


1/3 
"cs a 


则 有 、 
max 一 Hn,p 多 多 Wi Pe F, 
On,p 
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其 中 , F 表示 指数 8 二 1 的 TW 分 布 . 
关于 复 Wishart 矩阵 的 情形 , Johansson(2000) 证 明了 如 下 定理 : 
定理 1.4.8 ”假定 Amax 表示 复 Wishart HM W (n, Ip) 的 最 大 特征 根 . 记 


Lnp= (Vn + VP)”, 
ong = (Vii + VB) + =) 


则 有 


其 中 , Fo 为 指数 8 二 2 的 TW 分 布 . 

有 许多 理由 使 人 们 相信 在 一 定 的 矩 条 件 下 , 随机 和 矩阵 的 规范 化 的 最 大 (小 ) 特 
征 根 会 趋 于 TW 律 也 就 是 说 , TW 律 的 归 一 性 成 立 . 目前 , 已 知 的 结果 有 Soshnikov 
的 两 篇 文章 , 他 证 明了 下 述 结果 : 

考虑 A, = X'X ( 当 X 的 元 素 为 复 随机 变量 时 ，A, = X*X), 其中, X 为 
nx p 阶 矩 阵 , 其 元 素 为 id 实 随机 变量 zi;(1 < i < n,1 <j <p) 且 满 足 条 件 

(1) 已 zi =0, Blz2,|=1, 1<i<n, 1<j <p; 

(2) 随机 变量 zz 的 分 布 对 称 ; 

(3) 具有 所 有 阶 有 限 的 矩 且 满 足 增长 限制 Bc" | < (Km)™. 

如 果 随 机 变量 皆 为 复 随 机 变量 时 , 增加 如 下 条 件 : 

zij 的 实 部 和 虚 部 均 有 对 称 分 布 , 并 且 满 足 


Er}; =0. 


在 上 述 条 件 下 , Soshnikov (2002) 证 明了 定理 1.4.7 与 定理 1.4.8 分 别 在 相应 条 件 下 
成 立 . 

对 于 Wigner #28, Soshnikov (1999) 在 上 述 类 似 的 条 件 下 证 明了 定理 1.4.6 的 
结果 对 于 实 和 复 两 种 情况 仍然 成 立 . 

目前 存在 的 问题 有 @ Soshnikov 用 的 是 矩 方法 , 仍然 有 人 怀疑 其 证 明 的 正确 
性 ; @ Soshnikov 的 结果 是 否 在 更 一 般 的 矩 条 件 下 成 立 . 


1.4.3 ”关于 特征 根 间距 的 极限 性 质 的 归 一 性 

关于 特征 根 间距 (spacings) 的 极限 性 质 是 量子 力学 领域 里 比较 关心 的 一 个 问 
题 . 关于 它 的 研究 主要 局 限于 数学 物理 . 目前 已 知 的 结果 也 是 局 限 在 正 态 分 布 条 件 
下 取得 的 . 有 兴趣 的 读者 , 可 以 参见 文献 (Johansson, 2001) 及 相关 文献 . 相应 的 结 
果 也 存在 归 一 性 的 问题 , 也 就 是 只 在 矩 假 定 下 进行 研究 . 本 文 不 作 过 多 介绍 . 
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2.1 引 言 


数据 与 现代 生活 密 不 可 分 , 尤其 是 随 着 计算 机 等 信息 技术 的 发 展 , 几乎 在 各 个 
科学 领域 , 如 生物 科学 、 医 学 科学 、 计 算 机 科学 以 及 经 济 科 学 等 , 都 能 遇 到 各 种 各 
样 的 高 维 数据 . 在 这 些 数 据 背 后 往往 隐藏 着 一 些 重要 信息 ， 为 了 挖掘 这 些 信 息 , 如 
为 了 研究 自 变 量 X = (Xi,… ,Xp)T 对 因 变 量 Y 的 影响 , 常常 利用 回归 技术 建立 
如 下 的 统计 模型 : 

Y =G(X,e), (2.1.1) 
其 中 , e 是 模型 误差 . 通常 可 以 假定 e 与 X 独立 , WH “KX Le’. 在 数据 维 数 很 低 
时 , 可 以 简单 地 采用 观测 散 点 图 来 建立 一 个 合适 的 模型 . 但 是 , 由 于 平面 图 形 显示 
技术 的 限制 , 人 们 只 能 通过 图 形 直 接 观 测 三 维 以 内 数据 变量 之 间 的 相互 关系 . 对 于 
高 维 数 据 , 有 时 会 采用 单个 自 变量 和 因 变 量 之 间 的 散 点 图 来 分 析 . 下 面 来 看 一 个 简 
单 的 例子 . 

例 2.1.1 ”假设 样本 {(zli, 22,1, £34, y;)T,i = 1,--- ,1000} 来 自 某 个 模型 ( 稍 
后 会 指出 真实 模型 ). 此 时 , x = (X1,X2,X3)' 是 三 维 的 自 变量 观测 矩阵 ， 其 中 ， 
Xi = (Zil ,®i10000)". 记 = (yi ,yioooo)T. 已 经 不 能 在 一 张 平面 图 形 中 
同时 显示 Y 和 所 有 X 之 间 的 回归 曲面 了 . 为 此 , 先 来 看 看 因 变 量 Y 与 单个 自 变 
E X; 之 间 的 散 点 图 , 如 图 2.1 所 示 . 


a 


Y 
Omnu 


Noe 


Ac 


r= Sr De 
X; 
(Xs. Y) 


-4-3-2-1 0 1 2 3 4 
XxX, 
(X, Y) 


图 2.1 因 变 量 Y SHAARE X, 之 间 的 散 点 图 
本 章 作者 : 朱 力 行 , 香港 浸 会 大 学 教授 , 华东 师范 大 学 紫 江 学 者 讲座 教授 ; 朱 力 平 , 华东 师 
范 大 学 副教授 . 
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从 图 2.1 看 起 来 , 似乎 可 以 得 到 如 下 结论 : 
(1) Y 与 X1 呈现 某 种 非 线性 关系 ; 

(2)¥ 与 X: 没有 明显 的 联系 ; 

(3) Y 与 Xs 呈现 某 种 非 线性 关系 . 
实际 上 , 产生 的 (X,Y) 是 来 自 模型 


Y =|Xi1+X2|+e, (2.1.2) 


其 中 , 模型 误差 e 满足 cll X, 来 自 标准 正 态 分 布 , 而 x 来自 零 均值 的 正 态 分 布 , 其 


协 方差 阵 为 
1 0 0.9 
0 02 0 |. (2.1.3) 
09 0 1 


显然 , 逐个 分 析 散 点 图 得 到 了 错误 的 结论 . 下 面 考虑 这 组 数据 的 建 模 问题 . 如 果 不 
知道 真实 模型 , 则 可 能 会 先 尝试 线性 模型 


Y =BTX +e. (2.1.4) 


对 于 参数 p 的 估计 , 自然 可 以 采用 最 小 二 乘 回 归 . 另外 , 主 成 分 回归 以 及 偏 最 小 二 
乘 回归 也 是 两 种 比较 经 典 的 降 维 方法 . 主 成 分 分 析 的 思路 是 从 X 的 协 方差 阵 中 综 
A X 的 信息 , 通过 少数 的 线性 组 合 (也 被 称 为 “投影 ?) 来 代替 原来 高 维 的 自 变 量 
X. 但 是 主 成 分 分 析 的 缺点 是 在 提取 “投影 ” 时 没有 考虑 X MY 的 关系 . 偏 最 小 
二 乘 的 思路 是 把 最 小 二 乘 估计 投影 到 Krylov 空间 , 从 而 避免 了 估计 x 的 样本 协 方 
差 的 逆 . 因此 , 当 X 的 维 数 很 高 时 , 或 者 当 X 的 分 量 之 间 存 在 高 度 的 线性 相关 性 
时 , 偏 最 小 二 乘 方法 极为 常用 . 另外 , 当 估计 参数 B 时 , 偏 最 小 二 乘 方法 部 分 地 利 
HT X 和 Y 之 间 的 线性 关系 来 寻找 一 些 X 的 线性 组 合 , 从 而 提高 了 效率 . 尽管 
最 小 二 乘 回 归 、 主 成 分 回归 以 及 偏 最 小 二 乘 回归 在 线形 模型 的 时 候 常 常 有 很 好 的 
表现 , 但 是 这 些 方法 在 非 线性 的 时 候 都 不 能 适用 了 . 下 面 继续 来 看 例 2.1.1. 

例 2.1.2 还 是 采用 例 2.1.1 中 的 数据 . 对 这 组 数据 用 线性 模型 (2.1.4) 来 拟 
合 . 分 别 采 用 最 小 二 乘 、 主 成 分 分 析 以 及 偏 最 小 二 乘 得 到 6 的 估计 , 分 别 记 为 Bos: 
Bycar Bpis- 图 2.2 给 出 了 观测 得 到 的 Y ( 纵 轴 ) 以 及 对 应 的 拟 合 值 ( 横 轴 ) 之 间 的 散 
点 图 . 

从 图 2.2 的 三 个 图 形 可 以 看 出 , 用 上 述 三 个 方法 拟 合 在 非 线性 模型 时 的 表现 不 
尽 如 人 意 . 

另外 , 从 这 两 个 例子 也 可 以 看 到 , 高 维 数据 的 出 现 给 统计 学 的 发 展 带 来 了 新 的 
挑战 . 如 果 能 够 有 一 个 好 的 方法 , 使 得 不 需要 假定 数据 来 自 某 个 参数 模型 就 能 得 到 


2.2 “充分 ” 降 维 方法 - 39- 


真实 参数 B= (1, 1,0)T 的 一 个 很 好 的 估计 , 那么 通过 Y 和 87X 之 间 的 散 点 图 , 就 
很 容易 建立 起 一 个 正确 的 模型 了 . 


6 6 6 
4 4 4 
2 2 2 
> 0 ~ 0 > 0 
一 2 一 2 —2 
一 4 —4 —4 
Sst 0 2 7 6 (cae 0 2 4 6 0 2 4 6 
oX Bia X BUX 
(B3.X, Y) (BocaX, Y) (BX, Y) 


图 2.2 AZE Y 与 其 预测 值 的 散 点 图 


一 个 更 加 一 般 的 问题 是 : 假定 模型 
YILX|BTX, (2.1.5) 


其 中 , B = (m, ,nk) 是 一 个 p x K 的 矩阵 . 这 个 模型 意味 着 如 果 要 建立 Y 和 
X 之 间 的 回归 模型 , 只 需要 基于 Y 和 BT xX 来 建立 回归 模型 就 “足够 "了 . 也 就 是 
说 , 原来 p 维 的 自 变量 X 可 以 用 K 维 的 投影 BTX 代替 . 如 果 K 远 小 于 p, 则 就 
达到 了 降 维 的 目的 ! 这 个 模型 非常 一 般 , 包含 了 很 多 常见 的 模型 , 如 


Y= X +e, (2.1.6) 
Y=Gi(n{ X,--: ,.1kX) +E, (2.1.7) 
Y =G2(n{X,--- nk X) x €, (2.1.8) 
Y =G3(MF X,- kX) +Ga(ni KX, ,NKX)e. (2.1.9) 


在 例 2.1.1 中 , 如 果 能 准确 估计 B = (1,1,0)", 那么 就 可 以 把 一 个 三 维 的 自 变 
E x 替换 为 一 维 的 自 变 量 组 合 BTX. BPR, 只 要 基于 (BTX, Y) 来 建立 模型 就 
足够 了 . 

困难 在 于 仅仅 假定 模型 (2.1.5), 如 何 来 估计 B WE? Li (1991) 和 Cook (1996) 
提出 了 很 多 原创 性 的 思想 和 方法 ，Cook (1998) 对 此 进行 了 系统 的 归纳 和 总 结 ， 并 
借用 Fisher 的 充分 统计 量 的 思想 , 把 这 些 方 法 都 称 为 “充分 ” 降 维 方法 . 


2.2 “充分 ” 降 维 方法 
2.2.1 中心 降 维 子 空间 
如 前 所 述 , 降 维 的 目标 是 寻找 p x K 的 矩阵 B 满足 
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Y ILX|BTX. (2.2.1) 


显然 , 满足 式 (2.2.1) 的 矩阵 B 不 唯一 . 例如 , 若 4 是 任意 的 一 个 K x K 的 非 退化 
矩阵 , 则 BTX 与 4TBTX 存在 一 一 对 应 关系 . 也 就 是 说 ， 


Y LXIBIX @YILX|A™B'X, 


但 是 B 和 BA 张 成 的 空间 是 一 样 的 . 这 就 启发 我 们 去 寻找 B 张 成 的 空间 , 而 不 
是 BMAD. 记 span{B} 为 B 的 列 向 量 张 成 的 空间 , 满足 条 件 独立 性 (2.2.1) 
的 空间 span{ B} 称 为 降 维 子 空间 ， 

另外 , 如 果 C 也 是 一 个 矩阵 , 并 且 满 足 span{ B} C span{C}, W 


YILX|BTX > YILX|CTX. 


也 就 是 说 , 如 果 span{ B} 是 一 个 降 维 子 空间 , 则 span{C} 也 是 一 个 降 维 子 空间 , 所 
以 感 兴趣 的 是 最 小 的 降 维 子 空间 , 也 就 是 所 有 降 维 子 空 间 的 交集 . 如 果 所 有 降 维 
子 空间 的 交集 依然 满足 条 件 独立 性 (2.2.1), 则 称 之 为 中 心 降 维 子 空间 (Cook, 1994, 
1998), 通常 记 为 Syjx. 中 心 降 维 子 空间 的 维 数 , 记 为 K = dim(Sy|x), 称 为 结构 维 
数 . 若 2 = AX +b, 则 不 难得 到 


Sy|z = A lSyx. (2.2.2) 


例如 , 如 果 取 A = [Cov(X)]-!/2,b = —AE(X), 此 时 Z 是 标准 化 的 自 变量 , 满足 
E(Z) = 0, Cov(Z) = Ip, WA Syjz = [Cov(X)]12sylx. 因此 , 在 以 后 讨论 中 心 降 
维 子 空间 时 , 不 失 一 般 性 , 可 以 假定 预测 变量 X 已 经 被 标准 化 了 . 

基于 (XT,Y) 的 回归 本 质 上 是 研究 条 件 分 布 F(ylz). 注意 到 式 (2.2.1) 等 价 于 
条 件 分 布 满足 


F(y|x) = F(y|BT z). (2.2.3) 


可 以 看 出 , 如 果 某 个 降 维 方法 能 够 准确 地 估计 span{B}, 则 基于 (BT X,Y) 来 建立 
回归 模型 一 点 也 不 损失 基于 原始 数据 (X,Y) 的 回归 信息 . 借用 Fisher “充分 统计 
量 ” 的 思想 , 称 这 样 的 降 维 方法 为 “充分 ” 降 维 方法 . 

有 时 仅仅 关心 条 件 均值 或 者 条 件 方差 , 而 不 需要 考虑 其 他 更 高 阶 矩 . 类 似 地 , 可 
以 定义 中 心 均值 子 空间 以 及 中 心 方差 子 空间 . 
2.2.2 ”中 心 均值 子 空间 


如 果 仅 仅 关于 回归 均值 E(Y|X), 而 不 是 整个 条 件 分 布 F(Y|X), 降 维 的 目标 
是 寻找 p x K 的 矩阵 B, 使 得 


Y ILE(Y|X)|B’ x. (2.2.4) 
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满足 条 件 独立 性 (2.2.4) 的 空间 span{ B} 称 为 均值 降 维 子 空间 . 

显然 , 满足 式 (2.2.4) 的 矩阵 B 并 不 唯一 . Bilin, 当 BE px p 的 单位 矩阵 时 ， 
式 (2.2.4) 总 是 满足 . 因此 , 感 兴趣 的 是 最 小 的 均值 降 维 子 空间 , 也 就 是 所 有 均值 降 
维 子 空间 的 交集 . 如 果 所 有 均值 降 维 子 空间 的 交集 依然 满足 条 件 独立 性 (2.2.4), 则 
称 之 为 中 心 均 值 子 空间 (Cook 和 Li, 2002), 通常 记 为 Sp(yjx). Cook 和 Li (2002) 
证 明了 式 (2.2.4) 等 价 于 


E(Y|X) = E(Y|B™X). (2.2.5) 
2.2.3 ”中 心 方差 子 空间 


模型 的 异 方 差 性 也 往往 是 一 个 很 重要 的 数据 特征 , 通过 条 件 方差 Var(Y|X) 来 
刻画 . 此 时 , 降 维 的 目标 是 寻找 p x K 的 矩阵 B 满足 


Y — E(Y|X) iL Var(Y|X)IB'X. (2.2.6) 


满足 条 件 独 立 性 (2.2.6) 的 空间 span{B} 称 为 方差 降 维 子 空间 . 同样 地 , 感 兴趣 的 
仍然 是 最 小 的 方差 降 维 子 空间 , 也 就 是 所 有 方差 降 维 子 空间 的 交集 . 如 果 所 有 方差 
降 维 子 空间 的 交集 依然 满足 条 件 独立 性 (2.2.6), 则 称 之 为 中 心 方差 子 空间 (Zhu and 
Zhu, 2009), 通常 记 为 Svar(yjx). Zhu 和 Zhu (2009) 证 明了 式 (2.2.6) 等 价 于 


Var(Y |X) = Var(Y |BT X). (2.2.7) 


尽管 式 (2.2.4) 和 式 (2.2.6) 形式 上 很 类 似 , 估计 中 心 方差 子 空间 存在 本 质 上 的 
难度 . 因为 Y — E(Y|X) 通常 是 不 可 直接 观测 , 而 是 需要 估计 的 . 但 是 当 X 的 维 数 
很 高 时 , 估计 E(Y|X) 会 遇 到 著名 的 “ 维 数 祸根 ”问题 . 因此 , 估计 中 心 方差 子 空间 
会 更 为 困难 . 


2.2.4 “充分 降 维 方法 的 降 维 步骤 


文献 上 发 展 了 一 些 充分 降 维 方法 来 “恢复 ”上 述 的 子 空间 . Cook (1998) 对 这 
些 方法 作 了 一 个 非常 系统 的 总 结 . 在 以 后 的 章节 中 , 将 以 中 心 降 维 子 空间 为 例 , 讨 
论 这 些 充分 降 维 方法 . 一 般 来 说 ,“ 恢 复 ” 中 心 降 维 子 空间 通常 分 为 如 下 几 个 步骤 : 

(1)“ 识 别 ” 中 心 降 维 子 空间 : 基于 总 体形 式 (XT,Y), 寻找 一 个 矩阵 A, 使 得 
span(4) C Sy), 这 样 的 矩阵 A 被 称 为 核 矩 阵 ; 

(2) “估计 ”中 心 降 维 子 空间 的 基 方 向 : 基于 样本 (s7, y) = 1,… ,n} 来 估 
计 核 矩阵 A, 对 于 核 矩阵 的 估计 An 进行 谱 分 解 , 得 到 特征 值 和 特征 向 量 , 非 零 特 
征 根 所 对 应 的 特征 向 量 可 以 作为 中 心 降 维 子 空间 的 基 方 向 ; 

(3)“ 人 估计” 中心 降 维 子 空间 的 维 数 : 如 果 结 构 维 数 已 知 , 则 上 述 两 步 就 足够 了 ; 
否则 , 需要 进一步 估计 中 心 降 维 子 空间 的 结构 维 数 K = dim(Sy|x). 

下 面 将 分 别 就 这 三 步 讨论 “充分 ” 降 维 方法 . 
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2.3 “识别 ”中 心 降 维 子 空间 


首先 来 看 中 心 降 维 子 空间 的 “识别 ”问题 . 文献 上 关于 “充分 ” 降 维 的 方法 很 
多 , 简单 地 回顾 一 下 Li (1991) 提出 的 切片 逆 回 归 以 及 Cook 和 Weisberg (1991) 
的 切片 平均 方差 估计 的 方法 , 并 提出 了 平均 部 分 均值 估计 . 为 了 叙述 方便 起 见 , 记 
Syjx = span{B}， 不 妨 假定 预测 变量 x 已 经 被 标准 化 了 , 即 满足 E(X) = 0, 
Cov(X) = Ip. 


2.3.1 切片 逆 回 归 


定理 2.3.1 假设 
线性 条 件 


E(X|B™X) = PX, (2.3.1) 


则 span{Cov[E(X|Y)]} C Sy|x, HP, PB 是 个 投影 阵 , PB = B(B"B)-' B". 
证 明 ”注意 到 如 果 有 span{B(XIY)} S Syjx, 则 定理 得 证 . 为 此 , 下 证 E(X| 
Y) = PBSE(XIY). 不 难 证 明 


E(X|Y) = E[E(X|Y, B?X)|Y] = E[E(X|B™X)|Y] = PBE(XIY), 


其 中 , 第 一 个 等 号 成 立 是 利用 了 条 件 期 望 的 平滑 性 , 第 二 个 等 号 成 立 则 是 利用 了 中 
心 降 维 子 空间 的 定义 (2.2.1), 而 第 三 个 等 号 成 立 是 利用 了 线性 条 件 . 证 毕 . o 

在 充分 降 维 领域 , 线性 条 件 是 经 常 使 用 的 一 个 假设 , 并 且 一 般 认 为 这 个 假设 是 
比较 弱 的 , 参见 文献 (Li, 1991; Cook, 1998, Proposition 4.2, Page 57). Hall 和 Li 
(1993) 证 明了 如 果 解 释 变 量 X 的 维 数 p 一 co, 而 结构 维 数 K 固定 , 则 线性 条 件 总 
是 近似 满足 的 . 

定理 2.3.1 表明 当中 心 降 维 子 空间 的 维 数 为 K IN, Cov[E(X|Y)] 至 多 有 天 个 
非 零 特征 根 , 这 些 非 零 特 征 根 所 对 应 的 特征 向 量 都 在 中 心 降 维 子 空间 里 . 因此 , 为 
了 识别 中 心 降 维 子 空间 , 只 需要 对 核 矩 阵 Cov[ 已 (XIY)}] 进行 谱 分 解 , 得 到 其 特征 值 
和 特征 向 量 就 可 以 了 . 

Cook 和 Weisberg (1991) 注意 到 当 X MY 的 联系 函数 是 偶 函 数 时 , 则 切片 逆 
回归 方法 可 能 失效 . 图 2.3 是 一 个 例子 . 

从 图 2.3 可 以 看 出 由 于 对 称 性 , ECX|Y) = 0. 这 时 , 切片 道 回归 方法 就 完全 失 
效 了 . 但 是 也 注意 到 随 着 Y 的 增加 , Var(X|Y) 也 是 在 增加 的 . 基于 这 一 发 现 , Cook 
和 Weisberg (1991) 提出 了 切片 平均 方差 估计 . 
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2.3.2 ”切片 平均 方差 估计 
定理 2.3.2 ”除了 线性 条 件 (2.3.1) 以 外 , 进一步 假定 如 下 的 常数 方差 条 件 : 
Var(X|BTX) = I, — PB, (2.3.2) 
则 span{ E|I, — Var(X|¥)|?} C Sy\x, 其 中 , Ip 是 一 个 pxp 的 单位 矩阵 , PB 是 个 
投影 阵 , Pp = B(B"B)~'B". 
证 明 ”类 似 于 定理 2.3.1, 只 需要 证 明 span{Iy 一 Var(X|¥)} C Syjx 就 可 以 
T. 注意 到 Var(X|Y) = B(XXTIY) 一 B(XIY)E(XTIlY). 由 定理 2.3.1 的 证 明 可 知 
在 线性 条 件 下 有 
E(X|Y)E(X7T|Y) = PBE(XIY)E(XT™|Y)PS. (2.3.3) 
下 面 来 处 理 EB(XXTIY) 这 一 项 . 
E(X X7|Y) =E[E(X X7|B' x)|y] 
= E[Var(X|B™ X) + E(X|B™X)E(X™|B?X)|Y] 
=I, — Pg + PgE(XX"|Y)P§. (2.3.4) 
由 式 (2.3.3) 和 式 (2.3.4) 知 I, — Var(X|Y) = Pall, —Var(X|Y)| Ph. 定理 得 证 . 口 
特别 地 , 当 解 释 变 量 X 是 正 态 分 布 时 , 则 有 span{ El[Ip 一 Var(X|Y)]?} = Sy)x- 
Cook (1996), Cook 和 Critchley (2000) 证 明了 span{Cov[E(X|Y)]} € span{E[I, — 
Var(X|Y)]?}. 但 是 , 这 里 的 常数 方差 条 件 一 般 被 认为 是 一 个 很 强 的 条 件 . 
对 比 一 下 切片 逆 回 归 以 及 切片 平均 方差 估计 . 如 果 响 应 变量 是 连续 的 随机 变 
量 , 那么 在 “估计 ” 核 矩 阵 时 , 不 可 避免 地 要 采用 非 参 数 估计 来 估计 E(X|Y) 或 
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Var(X|Y), 在 下 面 一 章 可 以 看 到 在 估计 时 如 何 选 择 光 滑 参数 将 是 非常 重要 且 非 常 
困难 的 问题 . 关于 “估计 ” 核 矩 阵 的 问题 , 在 下 一 节 会 详细 讨论 . 下 面 来 介绍 平均 部 
分 均值 估计 , 这 种 方法 的 核 矩 阵 在 估计 时 非常 简单 , 不 需要 使 用 非 参数 估计 , 只 需 
BAA RB T. 

2.3.3 ”平均 部 分 均值 估计 


记 HY < y} ERA {Y <y} 上 的 示 性 函数 . 注意 到 式 (2.2.1) 事实 上 等 价 于 
说 条 件 分 布 函数 Flylz) = ELY < y}|X = a] = Ell{Y < y}|BTX = Bg] = 
F(y|BTz). 由 积分 的 链 式 法 则 可 知 (OF (y|X)/OX] = BOF (y|B* X)/0(B* X)}. 
此 , 直观 上 看 来 , OF (y|X)/OX 是 可 以 用 来 估计 中 心 降 维 子 空间 的 基 方 向 的 . 但 由 
于 X 的 维 数 一 般 很 高 , 直接 采用 非 参数 的 办 法 来 估计 条 件 分 布 是 会 遇 到 “ 维 数 祸 
根 ” 问 题 的 . 注意 到 如 果 假 定 X 来 自 一 个 标准 正 态 分 布 , 根据 文献 (Stein, 1981) 中 
的 引 理 4, 可 以 得 到 


E[|XF(y|X)] = El[OF(y|X)/OX] = BE[OF(y|B* X)/d(B" X)). (2.3.5) 
另 一 方面 , 根据 条 件 期 望 的 平滑 性 有 
A(y):= E[X1{Y < y}| = E[XE(1{Y < y}|X)] = E[XF(y|X)]. (2.3.6) 


也 就 是 说 , A(y) € span{B} = Syix 对 于 任意 的 y 都 成 立 . 但 是 , 在 高 维 数据 中 ， 
正 态 性 假定 一 般 认 为 比较 严格 , 所 以 在 下 面 的 定理 中 考虑 比较 弱 的 线性 条 件 . 

定理 2.3.3 ”假设 Sy\x = span{B} 和 线性 条 件 E(X|B™X) = PRX, 则 对 
任意 给 定 的 WU A Aly) € Sy\x- 

证 明 ”根据 式 (2.3.6) 中 Aly) 的 定义 有 


Aly) = EIE(X|Y)HY < y} = E(EIE(X|BTX)|Y]H{Y < y}) = PEAY). 


第 一 个 等 号 成 立 是 利用 了 条 件 期 望 的 平滑 性 , 第 二 个 等 号 成 立 是 利用 了 条 件 独立 性 
(2.2.1), 而 第 三 个 等 号 成 立 是 根据 线性 条 件 得 到 的 . 定理 得 证 . 口 

注意 到 vT4(y) = 0 等 价 于 vTAly)AT (yw = 0, 即 span{ A(y)} = span{ A(y) - 
AT(y)}. 记 立 是 与 荆 独 立 同 分 布 的 一 个 随机 变量 , 则 A(y) Ay) = ElA(Y)A™(Y)|Y 
=y). 构造 平均 部 分 均值 估计 的 核 矩 阵 如 下 : 


A=: E[A(Y)AT(Y)]. (2.3.7) 


通过 把 所 有 的 A(y) 汇聚 在 一 起 , 4 可 以 尽 可 能 多 地 恢复 Syjx 的 信息 . 由 于 4 是 
一 个 非 负 定 阵 , 则 有 下 面 的 推论 : 


2.4 “估计 ”中 心 降 维 子 空间 的 基 方 向 -45 - 


推论 2.3.1 在 定理 2.3.3 的 条 件 下 有 
span{ A} = span{ A(y), y € {Y 的 支撑 }} C Sy|x. 


推论 2.3.1 表明 , 4 的 非 零 特 征 根 所 对 应 的 特征 向 量 都 在 中 心 降 维 子 空间 中 ， 
因此 , 只 需要 对 4 进行 谱 分 解 得 到 其 非 零 特 征 根 以 及 对 应 的 非 零 特征 向 量 即 可 . 


2.4 “估计 ”中 心 降 维 子 空间 的 基 方 向 


基于 样本 {(zT,yi)T,i = 1,… ,n}, 本 节 来 讨论 核 矩 阵 的 估计 问题 , 并 讨论 这 些 
估计 方法 的 大 样本 性 质 . 对 于 估计 这 些 充 分 降 维 方法 的 核 矩阵 , 常用 的 有 Li (1991) 
提出 的 切片 估计 以 及 核 估计 、 样 条 估计 等 方法 . 另外 , 基于 切片 估计 的 想法 , 也 将 
提出 一 种 新 的 估计 方法 . 根据 其 计算 步骤 , 称 之 为 DEE 方法 . 

先 来 看 看 切片 估计 . 事实 上 , 切片 估计 的 思想 在 图 2.3 中 也 有 所 提 及 . 


2.4.1 “切片 ”估计 


Li (1991) 提出 切片 估计 的 思想 . 为 简单 起 见 , 将 基于 切片 逆 回 归来 说 明 切 片 估 
计 方 法 . 切片 估计 把 观测 的 响应 变量 {yi = 1,… ,m} Rd A PR, ++ ,Ip， 
这 些 区 间 也 被 称 为 切片 ， 然 后 估计 每 一 个 切片 以 内 的 均值 E(X|y © In), 这 样 
就 可 以 得 到 切片 逆 回 归 的 核 矩 阵 4 = Cov[E(XIY)] 的 估计 了 .， 具体 来 说 ， 设 
{(xi,y;),i = 1, ,n} 是 独立 同 分 布 的 样本 ， 根 据 响应 变量 的 值 的 大 小 对 所 得 到 
的 样本 进行 排序 , 得 到 {a Yahi = 1 ,n}, 其 中 ， Ya) S S Yin) Lia) 是 对 
应 yo 的 自 变量 向 量 . 引入 下 标 (nh 9), 其 中 , 第 一 个 下 标记 表示 第 h 个 切片 ,第 二 
个 下 标 j 是 在 给 定 的 切片 以 内 的 第 ; 个 观测 . 显然 有 


Yih i) = Yielh-1)+j)) Tihi) = F(e(h-1) +9): 


其 中 , c > 0 是 每 个 切片 以 内 观测 的 个 数 . 切片 道 回 归 的 核 矩 阵 的 估计 An 形 如 


c 


H c G T 
A,= F >» E >， (zo -Z Doo) (zas — Sza) | (2.4.1) 
h=1 j=l é=1 2=1 

其 中 , H = [(n 十 c 一 1)/d 是 切片 数 . 在 实际 计算 中 , 4 H 比较 大 时 , 可 能 最 后 一 
个 切片 以 内 的 点 数 会 小 于 c 个 , 但 这 不 会 影响 这 个 估计 的 大 样本 性 质 . 当 每 个 切片 
以 内 只 含 两 个 点 时 , BI c= 2, Hsing 和 Carroll (1992) 证 明了 An 以 wm 的 速度 是 
相合 的 . Zhu 和 Ng (1995) 推广 了 这 个 结果 , 证 明了 当 c 可 以 为 2 ~ n/2 的 任意 值 ， 
A, 总 是 Vn 相合 的 . 
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尽管 切片 估计 在 估计 切片 道 回归 的 核 矩 阵 时 具有 稳健 性 , 但 是 , 用 切片 估计 的 
方法 来 估计 切片 平均 方差 估计 的 核 矩 阵 时 , 却 发 生 了 意 想 不 到 的 困难 . Cook (2000), 
Cook 和 Critchley (2000) 以 及 Zhu 等 (2007) 的 大 量 模拟 表明 切片 平均 方差 估计 的 
效果 非常 依赖 于 切片 数 的 选取 . 这 些 模拟 结果 由 Li 和 Zhu (2007) 得 到 了 证 实 : 如 
果 响 应 变量 是 离散 的 , 并 且 只 取 有 限 个 值 , 则 切片 估计 总 是 vn 相合 的 ; 但 是 , 如 果 
响应 变量 是 连续 的 , 而 且 每 个 切片 以 内 的 点 数 c 固定 时 , 切片 平均 方差 估计 总 是 不 
相合 的 ; 如 果 c oo H c/ Vn 一 0, 则 切片 平均 方差 估计 的 速度 是 1/c. 这 个 理论 
结果 支持 了 以 前 的 模拟 结果 . 因此 , 如 果 切 片 数 选 择 不 适当 , 则 不 能 期 望 切片 平均 
方差 能 得 到 很 理想 的 估计 结果 . 遗憾 的 是 迄今 为 止 , 文献 上 没有 一 个 如 何 选择 切片 
数 的 方法 . 


2.4.2 ”其 他 非 参 数 估计 


由 于 切片 估计 在 估计 高 阶 托 方法 的 核 矩阵 时 不 能 得 到 Vn 相合 的 估计 , 因此 ， 
Zhu 和 Zhu (2007) 提出 了 用 核 估 计 的 方法 来 估计 切片 平均 方差 估计 的 核算 阵 . 由 
于 切片 平均 方差 估计 的 核 矩 阵 具 有 如 下 形式 : 


A=E(I,- Cov(x|¥)) = I, — 2E(Cov(x|¥)) + E(Cov(x|¥)) 
为 简单 起 见 , 记 
Rely) = E(X:Xı|Y =y), Galy) = Rel(y)f(y), 1<kl<p, 
ry) = E(X|¥ =y)= (EY =y), , E(XplY =9)) = (rar 
T T, 
gly) = (DFU) r) =: (a0) ,gp(y)) - 
另外 , 引入 示 性 函数 
p] b kal 
H N o, kL 


则 切片 平均 方差 估计 的 核 矩 阵 4 中 第 k 行 、 第 列 的 元 素 可 以 表示 为 如 下 形式 : 


As =ðni — 2E (Ra (Y) - re(Y)n(Y)) + E| X (Rui(Y)Ra(Y) 
i=1 


T 
’ 


(2.4.2) 


—Rri(¥ )ri(Y ru(¥) — ra(Y)ri(Y)Ra(Y) + re(Y)ri(Y)r?(Y))|. 
定义 相应 的 核 估计 形式 如 下 : 


Gi(Y) = -= Dn’ =), 


Gv) = Gilu) ,0 (9) FW) = mAN 
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人 (2) 一 G 人) - ,Fe(y))” = 9(y)/F(y), 
Guly) = peek (= #2), Ri(y) = Guly)/Fy), (2.4.3) 
其 中 , h 是 核 函 数 Kal) = K(-/h)/h 中 的 窗 宽 , 则 An 的 核 估计 形式 如 下 : 
An,kl = Okt 一 2 > (Bly;) — Fe(ys)Fc(y5) ) + (ily;) Ri(y;) 
1 


j= j=li=l 


—Rri(y, Flys )Fu(y;) — frlu) ily) Ra(y;) + Fi (yi (us)? (v3) ). (2.4.4) 


在 一 些 较 弱 的 正则 条 件 下 , Zhu 和 Zhu (2007) 证 明了 当 窗 宽 h 的 范围 为 o(n-)~ 
olni) 时 , 核 估计 总 是 Vn 相合 的 . 这 个 结果 表明 与 切片 估计 相 比 , 核 估 计 还 是 具 
有 一 些 优良 性 的 . 但 是 , 这 个 窗 宽 范围 并 不 包含 最 优 窗 宽 O("-1/5). 因此 , 在 使 用 
核 估计 时 , 还 是 需要 “undersmoothing” 的 , 这 也 是 核 估计 方差 的 不 足 之 处 . RA 
计 也 具有 类 似 的 性 质 , 可 以 参见 文献 (Zhu and Yu, 2007). 


2.4.3 DEE 方法 


EP AEA EA EES PEA PT ES FE AS, 甚至 可 能 不 
WA, 而 且 也 没有 一 个 合适 的 选择 切片 数 的 办 法 或 者 准则 . 其 他 非 参 数 估计 , 如 核 
估计 、 样 条 估计 , 在 估计 时 必须 要 “undersmoothing” 才 能 有 vn 的 速度 , 因此 , 发 
展 新 的 估计 方法 尤为 必要 . 这 一 节 将 提出 一 种 新 的 估计 方法 , 即 DEE 方法 . 值得 指 
出 的 是 , 这 种 方法 在 响应 变量 Y = (Y1,… Ya)" 是 高 维 时 仍然 适用 . 

为 了 叙述 方便 起 见 , 先 在 总 体 水 平 下 介绍 DEE 方法 . 这 个 方法 分 为 如 下 三 个 
步 又 : 

(1) 离散 化 步骤 : 对 任 给 的 t= (ti, ta)! ER’, W Z(t) = (Iv crys 
lyc) 是 定义 在 集合 {¥1 < tih e {Ya < ty} ATER, Sz) x 是 基于 回 
YA 2Z(#)| 和 所 张 成 的 中 心 降 维 子 空间 . 记 A(t) 是 一 个 p xp FEREN (可 以 为 切 
片 逆 回归 、 切片 平 均 方差 估计 、 平均 部 分 均值 估计 等 许多 充分 降 维 方法 的 核 矩 阵 )， 
满足 span{ A(t)} = Sz) x. A, 新 的 响应 变量 Z(t) 中 的 所 有 分 量 都 只 取 两 个 
值 : 0 或 1. 

(2) 平均 化 步骤 : 假设 工 是 一 个 随机 向 量 , KRA R, 则 A(t) := E[A(T)|IT = 
t. 关于 随机 变量 取 期 望 , 可 以 得 到 核 矩 阵 4 := ELAT). 

(3) 谱 分 解 步骤 : 记 v1,… ,vx 是 4 的 最 大 的 K 个 特征 值 对 应 的 特征 向 量 ， 
WW span(vi, ,vk) 可 以 用 来 作为 Sy|x 的 基 方 向 的 估计 . 

下 面 的 定理 说 明了 DEE 方法 在 估计 中 心 降 维 子 空间 时 不 会 损失 信息 . 

定理 2.4.1 # RY CR? E span{A(t)} = Szex 对 任意 的 t 都 成 立 则 
span{ A} = Sy|x. 
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证 明 W P EZAR Sy|x 上 的 投影 ， Pat) 是 空间 span{ A(t)} 上 的 投影 , Pa 
是 空间 span{4} 上 的 投影 . 

根据 文献 (Ye, Weiss, 2003) 中 的 引 理 3, 可 以 得 到 span{A} C Sy|x. 因此 , 下 
面 只 证 明 Syjx C span{4}, 即 要 证 XILY|PaX, 或 等 价 地 ， 


P(X <a@,Y < t|P4X) = P(X 和 zlP4X)P(Y < t|P4X) (2.4.5) 


对 所 有 的 ze R UR te RY. Rv Ll span{ A}, W vt Av = vE[A(T)|v = 0, 这 就 
表明 vl A(t)v = 0 在 RY 关于 F(-) 几乎 处 处 成 立 . 由 于 A 是 半 正 定 的 , WA vl 
span{ A(t)} 在 RY 上 关于 FF 几乎 处 处 成 立 . 因此 , XI Z(t)|PaX. 于 是 , 式 (2.4.5) 
的 左边 可 以 写成 P(X < x, Z(t) = 1|PaX) = P(X < æ|P4X)P(Z(t) = 1|P4X), 
可 以 看 出 式 (2.4.5) 的 右边 相等 , 其 中 , 1 = (1,… ,1)T. 可 以 看 出 , A (2.4.5) 在 RY 
上 关于 Fy 几乎 处 处 成 立 . 定理 得 证 . 口 

定理 2.4.1 表明 , 基于 A 来 估计 中 心 降 维 子 空间 Sy|x 不 会 损失 信息 的 . 为 了 
绕 过 一 些 技术 细节 , 文献 上 常常 假设 覆盖 条 件 span{ A(t)} = Szex- 感 兴趣 的 读者 
可 以 参见 文献 (Cook, 1998; Li et al, 2005; Li and Wang, 2007). 如 果 span{ A(t)} C 
Sza)x, W 4 的 列 空间 只 能 张 成 sylx 的 一 部 分 .注意 到 对 任意 给 定 的 t, 识别 
Szex 是 一 个 很 经 典 的 降 维 问题 , 并 且 响 应 变量 是 取 两 值 的 . 当 响应 变量 是 一 维 
时 , 很 多 成 熟 的 充分 降 维 方法 , 如 切片 道 回归 (Li, 1991; Zhu and Ng, 1995). WH 
平均 方差 估计 (Cook and Weisberg, 1991; Li and Zhu, 2007)、 切 片 平 均 三 阶 矩 估计 
(Yin and Cook, 2003) 以 及 方向 回归 (Li and Wang, 2007), 都 能 达到 wm 相合 . 这 些 
结果 在 响应 变量 都 是 高 维 时 也 自然 满足 . 也 就 是 说 , A(t) 的 估计 形式 A, (t) 满足 如 
FRA: 


A,(t) = A(t) + E,[y(X,Y,t)] + Rn(t), (2.4.6) 
其 中 , 记号 En 是 样本 平均 , 对 任意 的 t 有 
Ely(X,Y,t)}=0 H R(t)= op(n-’”), (2.4.7) 


v(X,Y,t) 的 二 阶 和 矩 有 限 . 显然 , 不 同 的 充分 降 维 方法 得 到 的 (X,Y,t) 具有 不 同 
的 形式 . 这 种 估计 常常 称 为 渐 近 线性 估计 , 感 兴趣 的 读者 可 以 参见 文献 (Bickel 等 ， 
1993, 第 19 页 ). 很 多 逆 回 归 方法 都 满足 等 式 (2.4.6) 和 式 (2.4.7), 如 Li (1991), Zhu 
和 Ng (1995) 以 及 Zhu 和 Fang (1996) 得 到 了 切片 逆 回 归 的 线性 表达 (2.4.6), Li 和 
Zhu (2007) 证 明了 切片 平均 方差 估计 也 满足 式 (2.4.6), Li 和 Wang (2007) 也 得 到 
了 方向 回归 的 渐 近 线性 表达 式 . 为 了 说 明 问 题 , 进一步 假定 


sup ||Rn(t)||~ = op(n™™?), (2.4.8) 
tERa 


其 中 , || - || 是 Frobenius WAR. Li 等 (2008) 也 假定 了 一 个 很 类 似 的 条 件 . z 

现在 来 讨论 4 的 估计 问题 . BE t ,tm ET PARRA mn 的 独立 同 分 布 的 
样本 . 对 任意 给 定 的 HO = 1,… ,mn) An MAR (x lth i=l, ,mn}, 其 
P, ilt) =! Lasts} = (Iowast o Mustia) 记 An(ts) 是 核 矩阵 A(t;) 的 
估计 , RU A 的 估计 可 以 表示 为 


Aman = Em,[An(T)] = — An(t;)- (2.4.9) 
下 面 的 定理 说 明了 Amin 是 一 个 Vn 的 相合 估计 . 

定理 2.4.2 ”假设 条 件 (2.4.6)~(2.4.8). 进一步 假设 , 对 任意 的 t € R’, A(t) 
中 的 每 一 个 元 素 的 二 阶 和 矩 有 限 . 若 n= Olma), 则 


Am, n — A = Op(n™ 2). 


证 明 ”这 个 定理 的 证 明 与 文献 (Li, et al., 2008) 中 定理 3.1 的 证 明 很 类 似 ， 

此 , 略 去 . 
口 

定理 2.4.2 说 明 即 使 响应 变量 是 连续 的 ， DEE 方法 仍然 能 够 达到 yn 收敛 
速度 . 
为 了 证 明 渐 近 正 态 性 ， 取 Mn = N, t; = Yj j = 1,:-- >. id V= [A(Y) = 
EA(Y)| + EW(X, Y, Ý)| X,Y] + Ely(X,¥,Y)|¥], 其 中 ,了 Sy 同 分 布 . 

定理 2.4.3 ”除了 定理 2.4.2 假设 的 条 件 外 , 进一步 假定 ElY?(X,Y,Y)] < oo， 
Ely? (X,Y, Y)] < ee 以 及 E[A?(T)] < co, 则 

vi(vec(4nn) — vee(A)) L, N (0, Var{vec(V)}). 

证 明 ”证 明 的 思路 是 把 估计 量 写成 一 个 独立 和 的 形式 , 再 加 上 一 个 可 以 忽略 
的 余 项 , 然后 用 中 心 极 限定 理 就 可 以 证 明 渐 近 正 态 性 了 . 为 了 叙述 方便 起 见 , 不 妨 
假定 Ann 是 一 个 数 ， 而 不 是 一 个 和 矩阵. 当 ti = Yi AY, 记 


Usn = = D WE; YY) n=1,2,:--, 
i=1 
则 Ann- A 可 以 展 成 如 下 形式 : 
[EnA(Y) - EAF) + = Un 二 二》 Rnly;), (2.4.10) 
j=1 j=1 


其 中 , 第 一 项 是 一 个 独立 和 的 形式 . 根据 一 致 有 界 条 件 (2.4.8), 可 以 证 明 第 三 项 是 
op(n-1/2). 因此 , 只 要 证 明 第 二 项 也 能 写成 一 个 独立 和 的 形式 就 够 了 . 
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根据 定理 条 件 有 


1S mn- oe - Te >» VW (Py, Yj ik T Y(Ti, Yis Yj) 4 op(1/Vn) 
1 


j= i<j 


三 Un + op(1/Vn) a 


BR, Un 是 一 个 标准 的 二 阶 U 统计 量 . ATU, 写成 一 个 独立 和 的 形式 , 用 Un 
HRR Un, 


On = SE( Unlzi)2j) = — 7 vey Yi) + (Tis Yi Vs )lEj yy] 


j=1 


= SDCR) + EW(X, Y, y;)l}, 


这 个 投影 显然 是 个 独立 和 的 形式 ， 利用 条 件 E(X, Y, Y) < oo 以 及 文献 (Ser- 
fling, 1980, 第 189 页 ) 的 定理 5.3.3, 可 以 得 到 Un = 0, + ollogm/m) 几乎 处 处 成 立 . 
”利用 这 个 结果 以 及 式 (2.4.10), 定理 得 证 . 口 

定理 2.4.3 确保 了 DEE 方法 的 渐 近 正 态 性 . 尽管 DEE 方法 继承 了 切片 估计 
的 思想 , 但 是 DEE 方法 得 到 了 一 些 切 片 估计 所 不 具有 的 优点 . 


2.5 “估计 ”中 心 降 维 子 空 间 的 结构 维 数 


在 估计 中 心 降 维 子 空间 时 , 很 多 充分 降 维 方法 都 是 分 为 两 步 来 进行 : 第 一 步 估 
计 中 心 降 维 子 空间 的 基 方 向 ; 第 二 步 估 计 中 心 降 维 子 空间 的 维 数 . 在 第 一 步 中 , 假 
定 中 心 降 维 子 空间 的 结构 维 数 K 已 知 , 对 某 个 核 矩阵 进行 谱 分 解 可 以 得 到 基 方 向 
的 估计 , 而 在 第 二 步 中 , 结构 维 数 K 可 以 通过 序 贯 方法 或 者 Bayes 型 信息 准则 来 
估计 得 到 . 

下 面 先 来 看 看 序 贯 检验 . 


2.5.1 ” 序 贯 检验 


序 贯 检验 最 先是 由 Li (1991) 提出 来 的 . 切片 逆 回 归 的 核 矩 阵 为 A = Cov[E(X| 
Y)), 其 相应 的 估计 形式 记 为 4, 见 式 (2.4.1). 对 估计 得 到 的 A, 进行 谱 分 解 , 可 以 
得 到 其 特征 信 X > > 和 以 及 它们 对 应 的 特征 向 量 . A= —* HL 
(1991) 证 明了 若 x 来 自 正 态 分 布 , 则 


i=K+1 
mp 一 天 )A 渐 近 地 服 从 x? 分 布 , 其 自由 度 为 p — K)(H -K -1). 
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基于 这 个 结论 , 可 以 用 序 贯 检验 的 办 法 来 估计 结构 维 数 . 对 于 给 定 的 显著 性 水 
F ww 先 假设 K = 0, 看 看 n(p - K)\ 是 否 大 于 临界 值 x?_。((p 一 K)(H -K - 1)). 
如 果 小 于 临界 值 , 则 接受 原 假 设 K = 0; 否则 的 话 , 拒绝 原 假设 , 再 来 检验 K = 1. 
如 此 下 去 , 一 直到 接受 原 假设 为 止 . 如 果 K = p -1 时 还 是 拒绝 原 假设 , 则 推断 结 
构 维 数 为 p, 也 就 是 说 , 原 模型 不 能 被 降 维 了 ， 由 于 正 态 性 假定 太 强 , 因此 , Schott 
(1994), Velilla (1998) 以 及 Bura 和 Cook (2001) 推广 了 Li (1991) 的 序 贯 检验 的 结 
R, 在 X 为 椭 球 对 称 分 布 时 , 证 明了 nlp- K)A IRA d 个 独立 的 、 自 由 度 为 
1 的 x? 分 布 的 加 权 和 , 记 为 kix2(1) 十 … + kax?(1). 这 些 权重 Ai 是 未 知 量 , 都 是 
需要 估计 的 . 实际 中 , 这 些 权 重 往往 都 依赖 于 核 矩 阵 估计 的 渐 近 协 方差 阵 , 所 以 估 
计 起 来 比较 复杂 . 这 也 说 明了 序 贯 检验 很 依赖 于 核 矩 阵 估计 的 检验 正 态 性 的 . 用 类 
似 的 想法 , Cook 和 Ni (2005) 讨论 了 道 回归 族 中 的 x? 检验 问题 . 可 以 看 出 在 这 些 
渐 近 性 质 之 中 , 都 是 假定 切片 数 H 是 固定 的 , 而 且 要 求 A> K +1. 而 实际 中 , K 
往往 是 未 知 的 . 因此 , 尽管 切片 估计 在 估计 中 心 降 维 子 空间 的 基 方 向 时 对 切片 数 不 
敏感 , 不 同 的 切片 数 对 结构 维 数 的 估计 是 有 很 大 影响 的 . 另外 , 序 贯 检验 还 有 一 些 
别 的 缺点 , 如 最 终结 构 维 数 的 估计 取决 于 检验 水 平 a 的 选取 . 另外 , 序 贯 检验 方法 
得 到 的 结构 维 数 的 估计 不 具有 相合 性 . 


2.5.2 Bayes 型 信息 准则 


Zhu 等 (2006) 提出 了 一 个 Bayes 型 准则 , 这 个 方法 的 好 处 在 于 能 够 得 到 结构 
维 数 估计 的 相合 性 . 下 面 以 切片 逆 回 归 为 例 来 说 明 这 个 想法 . 

W A = Cov[E(X|Y )), 相应 的 切片 估计 记 为 An 由 于 A 的 最 小 的 p 一 KK 个 特 
征 值 为 零 , 可 以 把 K 个 最 大 的 特征 值 看 成 信号 , 把 K 看 成 信号 的 个 数 . 为 了 利用 
Zhao 等 (1986a, 1986b) 的 想法 , 记 N = A + Ip, È = Ant+Ip. W0 > 02 >--- > O 
是 矩阵 2 的 特征 值 , 6 > 60 > …:> 儿 是 只 的 特征 值 . 很 显然 , 9; = Xi +1, 其 中 ， 
Ai 是 A 的 特征 值 . 估计 中 心 降 维 子 空间 的 维 数 现在 就 等 价 地 转 为 估计 和 矩阵 2 中 
的 特征 根 大 于 1 的 个 数 了 . 

定义 拟 似 然 函数 

log L(0) = - 5 log || = Str(0 A). (2.5.1) 


显然 , 拟 似 然 函 数 是 6 = (01 ,0,) 的 一 个 函数 . 记 OB 是 满足 0 > 2 >--- > 
Ok > 1 A 441 = 二 … = Op = 1 的 集合 . BH, 令 7 BO PRE 1 的 个 数 . 根据 文献 
(Zhao, et al., 1986a, 1986b) 有 
o n 4 > np n : a > 
op log L(0) = 5 2108 0; — a + 3 oN eee +1-—4;). (2.5.2) 


由 于 目标 是 估计 结构 维 数 K, 式 (2.5.2) 的 右边 可 以 等 价 地 转化 为 
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P 
n a a 
4 >> (tog 6; +1 — 4). 
- 1 一 1 十 min(T, 天 ) 
下 面 记 x p i i 
logL=5 >》 (logĝi+1-ô;) (2.5.3) 
2 : 
i=1+min(7,k) 


以 及 
G(k) = log Lk — Cnk(2p — k + 1)/2, (2.5.4) 
其 中 , 第 二 项 是 惩罚 项 , Cn RRMA, k2p- k+ 1)/2 BH (2.5.1) PH Oe Ok 
满足 时 自由 参数 的 个 数 . Bayes 型 信息 准则 定义 结构 维 数 的 估计 为 
G(K) = oa, G(k). (2.5.5) 
下 面 的 定理 证 明了 利用 Bayes 信息 准则 得 到 的 结构 维 数 的 估计 K 的 相合 性 . 
定理 2.5.1 Mik p = O(n’), K 是 一 个 不 依赖 于 n HEH, |R- Êl = 
Op(n-*) (或 O(n-!), a.s.), t > 0,2t > s, 惩罚 常数 Cn 满足 
(D com = 0 
(2) lim Cny/ml-2 = œ, 
则 n—-+0o 
K — K = op(1) (或 o(1), a.s.). 
证 明 ”只 证 强 相合 性 , 因为 弱 相 合 性 的 证 明 也 是 类 似 的 . 记 K 是 4 的 真实 维 
数 . 注意 到 


G(K) — G(k) = log Lx — log Lk — Cn(K — k)(2p—k — K +1)/2. 
当 |R- || = O(n), as. 时 , 则 有 对 于 充分 大 的 n, 
6,>1,i=1,---,K 以 及 min(7,K)=K, 


其 中 , r 是 Â 中 满足 Â > 1 的 个 数 . 如 果 < K, 则 min(r,k)= k. 因此 , 5 n Æ 
够 大 时 ， 


K 
1 a 和 1 
log Lx — log Ly = -37 > (log 6; +1 -—6;) = z” Wn(K, k), 
i=k+1 


其 中 ， 
Wrn(K,k) =— >》 (log6; +1- 6). 


i=k+1 


于 是 有 
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K 
lim W,(K,k) =W(K,k)=— >》 (log6;+1-6) > 0, 
Tee i=k+1 


所 以 , 对 于 充分 大 的 n 有 
log Lx 一 log Lk > FnW(K, k). 
注意 到 lim C,/n'-* =0 A p= O(n’), 则 
Cn(K — k)(2p- k — K + 1)/n => 0. (2.5.6) 
因此 , 下 面 的 结论 依 概 率 1 成 立 : 
G(K) — G(k) > 0. (2.5.7) 
另 一 方面 , 4k> K 时 , 根据 式 (2.5.3) 可 以 得 到 


llog Lk —logLk| <n > |logôĝ; +1- ôi], 
i=K+1 


利用 Taylor 展开 ， 


p 
人 
| log Lg — log L| Sn 5 5 (9 — 1)?(1 + o(1)) 
i=K+1 


<n||2 — |? = O(n'-*), a.s.. 


4 jim Cn/m = 00, 对 充分 大 的 nn 有 


G(K) — G(k) = O(n)-**) + Cn(k— K)(2p—k—K+1)/2>0. (2.5.8) 
结合 式 (2.5.7) AX (2.5.8) 就 证 明了 
K=K. 
因此 , 强 相合 性 得 证 . 类 似 地 , 可 以 证 明 弱 相合 性 . 口 


据 我 们 所 知 , 这 是 文献 上 第 一 次 讨论 结构 维 数 的 相合 性 问题 . 另外 , 定理 2.5.1 
包含 了 解释 变量 的 维 数 p 趋向 无 穷 的 情形 , 因此 , 这 个 结果 也 相当 一 般 . 


2.6 结 R 语 


本 章 讨 论 了 中 心 降 维 子 空间 的 “识别 ”以 及 “估计 ”问题 , 简要 回顾 了 文献 上 
已 有 的 一 些 方法 , 并 提出 了 一 些 新 的 方法 , 以 期 起 到 “抛砖引玉 ”的 作用 . 在 充分 
降 维 领域 , 还 有 很 多 有 趣 的 问题 , 如 解释 变量 维 数 发 散 或 者 响应 变量 特别 高 的 情形 ， 
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这 些 问 题 还 值得 大 家 去 作 进 一 步 的 探索 ,另外 一 个 热点 方向 是 数据 变量 的 维 数 相 
对 于 样本 数 来 说 非常 之 大 , 甚至 可 能 大 于 样本 数 . 对 于 这 样 的 小 “n” 大 “p” 问题， 
目前 文献 上 有 了 一 些 起 步 性 的 工作 , 然而 , 这 些 方面 还 有 太 多 的 工作 需要 做 . 
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经 典 线性 模型 的 很 有 用 的 推广 是 变 系数 模型 (varying-coefficient models). 这 
个 思想 起 源 于 教科 书 , 参见 文献 (Shumway, 1988, 第 245 页 ). 直到 Cleveland 等 
(1991), Hastie 和 Tibshirani (1993) 的 原始 工作 发 表 之 前 , 这 样 一 个 建 模 技术 的 潜力 
一 直 没 有 得 到 充分 的 探索 ， 变 系数 模型 是 近年 来 兴起 的 高 维 数据 回归 分 析 的 一 个 
新 的 发 展 方向 . 变 系 数 模 型 具有 许多 优点 , 主要 有 以 下 几 个 方面 : @ 变 系数 模型 中 
的 回归 系数 是 某 些 因子 的 非 参数 函数 , 因此 , 该 模型 在 减少 建 模 偏差 和 避免 “ 维 数 
祸根 ” (curse of dimensionality) 方面 具有 吸引 力 ; @ 变 系 数 模型 是 线性 模型 的 推广 ， 
因此 , 该 模型 既 保 留 了 参数 模型 容易 解释 的 优点 , 又 保留 了 非 参数 回归 模型 的 灵活 
和 稳健 的 特点 , 适 于 外 延 ; @ 变 系数 模型 是 一 类 非常 广泛 的 模型 , 包含 了 文献 中 常 
见 的 一 些 模型 , 如 可 加 模型 (Hastie and Tibshirani, 1990)、 部 分 线性 模型 (Hardle, 
et al., 2000)、 单 指标 函数 系数 回归 模型 (Xia and Li, 1999), 自 适 应 的 变 系数 线性 模 
型 (Fan, et al., 2003) 等 . 因此 , 自从 该 模型 提出 以 来 , 已 有 许多 统计 学 者 对 变 系 数 
模型 在 独立 数据 和 纵向 数据 下 进行 了 研究 , 并 把 这 个 模型 用 于 流行 病 学 的 研究 , 已 
经 取得 了 一 系列 丰富 的 研究 成 果 . Wu 等 (1998, 2000) 考虑 了 当 观 测 数据 为 纵向 数 
据 (longitudinal data) 时 , 通过 极 小 化 局 部 最 小 二 乘 准 则 , 获得 了 函数 系数 的 核 佑 
计 及 其 渐 近 性 质 . Fan 和 Zhang (2000) 对 纵向 数据 变 系数 模型 提出 使 用 两 步 估计 
方法 估计 系数 函数 . Chiang (2001) 使 用 光滑 样 条 方法 估计 了 系数 函数 . Huang 
等 (2002) 在 研究 重复 测量 的 变 系数 模型 时 , 利用 基 函 数 逼 近 的 思想 把 每 一 个 系数 
函数 转化 成 无 限 维 的 参数 , 基于 Bootstrap 方法 构造 了 函数 系数 的 置信 域 , 并 完成 
了 假设 检验 . Xue 和 Zhu(2007) 提出 了 两 种 纠偏 的 经 验 似 然 一 一 均值 校正 的 经 验 
似 然 和 残 差 调整 的 经 验 似 然 ， 使 得 所 构造 的 经 验 对 数 似 然 比 能 够 渐 近 到 一 个 标准 
卡 方 分 布 , 利用 这 个 结果 可 以 构造 函数 系数 的 置信 带 . 许多 学 者 把 变 系数 模型 推广 
到 半 参 数 变 系数 模型 , 这 个 模型 比 单纯 的 变 系数 模型 更 加 灵活 , 也 具有 降 维 的 能 力 . 
Xia 等 (2004) 给 出 了 半 参 数 变 系数 模型 中 兴趣 参数 的 有 效 估计 . Zhang (2002) 通 
过 对 函数 系数 用 局 部 多 项 式 拟 合 , 构造 了 模型 中 参数 和 非 参数 的 估计 . Li 和 Liang 
(2007) 研究 了 半 参 数 变 系 数 模 型 中 参数 分 量 的 变量 选择 问题 , 并 研究 了 模型 中 参数 
和 非 参 数 的 估计 及 其 渐 近 性 质 . Lam 和 Fan (2007) 考虑 当 参 数 分 量 的 维 数 随 着 样 
本 大 小 趋向 于 无 穷 大 时 , 模型 中 参数 和 非 参 数 分 量 估计 的 渐 近 性 质 . 关于 变 系数 模 


” ”本章 作 者 : BEAR, 北京 工业 大 学 教授 . 


3.1 模型 及 估计 方法 -57- 


型 的 其 他 文献 可 参见 (Hoover, et al., 1998; Cai, et al., 2000; Xia and Li, 1999; Zhang 
and Lee, 2000; Kim, 2007) 等 . 国内 统计 学 者 在 变 系数 模型 方面 也 取得 了 一 定 的 成 
SR, 张 日 权 和 卢 一 强 (2004) 的 《 变 系数 模型 》 一 书 阐述 了 国内 外 一 些 学 者 在 这 个 领 
域 的 研究 成 果 . 


3.1 模型 及 估计 方法 


3.1.1 模型 
变 系数 模型 具有 如 下 形式 : 


Y =a"(U)X +e, (3.1.1) 


其 中 , (U, X) 是 协 变量 , Y 是 响应 变量 , a(.) = (a1(-),… ,ap(.))T 是 未 知 函 数 向 量 ， 
a;(U) ER 上 的 可 测 函 数 , s 是 随机 误差 且 L(elU, X) = 0. 

在 模型 (3.1.1) 中 , 由 于 诸 回归 系数 w(Z) 依赖 于 U, 因此 , 大 大 削减 了 建 模 偏 
差 且 避免 了 “ 维 数 祸根 ”, 这 是 该 模型 的 一 大 优点 . 该 模型 的 另 一 个 优点 是 更 具有 可 
解释 性 , 它 可 以 被 用 来 有 效 地 分 析 纵 向 数据 和 时 间 序 列 数据 (time series data). 


3.1.2 ”局 部 线性 估计 
1. 估计 方法 
BE {(Ui, Xi, Yi); 1 <i <n} 是 来 自 模型 (3.1.1) 的 独立 同 分 布 样本 (iid), 则 有 


Y; = aT(U;) Xi + £i, A 


其 中 , Xi = (Xu,… Xo). 下面 用 局 部 线性 回归 方法 来 估计 系数 函数 wj(.)() = 
1,… ,p). 对 于 给 定 的 点 uo, 在 uo 的 一 个 邻 域内 用 线性 函数 


a;(u) = a;(uo) + aj(uo) = aj + bj(u — uo), j=1,.…,p 
局 部 地 逼近 a;(-). 这 就 导致 下 列 似 然 函 数 : 


m 


2 

P 

l,(a,b) = X fx 一 》 la; + b;(U; — uo) Xi ,| Kh (Ui — uo), (3.1.2) 
i=l j=1 

IH, Kal) = K(-/h), K() 是 核 函 数 , h= hn > 0 是 窗 宽 序 列 , a= (a, ,an)T， 

b = (b1,.… , bp). 注意 到 a; 和 bj 依赖 于 uo, Mitt U(-,-) 也 依赖 于 uo 最 大 化 

jn(a,b) 可 以 得 到 估计 量 (wuo) 和 p(uo), 其 中 , â(uo) 的 分 量 给 出 了 a (wo),… ,ap(uo) 
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的 估计 . 为 简化 记号 , 记 Bluo) = (aT,bT)T, B(uo) = (âT (uo), $ (wo))T， 由 最 小 二 
RELTA 
B(uo) = (X "WX X wy. (3.1.3) 
在 表达 式 (3.1.3) 中 , X 为 n x 2p 矩阵 , 其 第 i TRA (Xa, ,Xip XalUi 一 
uo), s , Xip(Ui—uo)), W = diag{ Ka (U1 -10)， a: , Ka(Un—uo)}, y = (Yi, ate A oe 
2. 窗 宽 选 择 


各 种 现 有 的 窗 宽 选 择 技术 可 以 应 用 于 上 面 的 估计 , 这 里 使 用 Cai 等 (2000) 提 
出 的 一 个 简单 快捷 的 窗 宽 选择 方法 , 它 可 以 看 成 改良 的 交错 验证 准则 , 并 且 适 用 于 
平稳 时 间 序 列 数 据 . 该 方法 的 基本 思想 如 下 : 设 m 和 Q 是 两 个 正 整数 且 ”> mQ. 
通过 最 小 化 平均 均 方 误差 (AMS) 


Q 
AMS(h) = 5 >> AMS, (h) (3.1.4) 
q=1 


来 选择 h, 其 中 ， 


1 n—qm+m p 2 
AMS} (h) = — 5 Yi — X aj q(Ui)Xiz p ， 


i=n-qm+1 j=1 


{G;,q(-)} 是 利用 样本 {(Ui, Xi,… ,Xip, Yi 1 <i < n 一 gm} 来 计算 , 其 窗 宽 等 于 
hIn/(n 一 qm)]1/s. 这 种 选择 窗 宽 的 优点 是 对 于 不 同 的 样本 量 按 照 h 的 最 优 速度 来 
选择 窗 宽 , 即 h x n-15. 在 实际 操作 中 , 可 以 使 用 mm = [0.1n] 和 Q = 4. 由 于 窗 宽 
的 选取 不 太 依赖 m 和 Q@ 的 选择 , 因此 , 简单 地 取 m = [0.1m], 而 不 取 m = 1, 这 是 
为 了 计算 上 的 方便 . 


3. 主要 结果 
下 面 给 出 B(uo) 的 渐 近 分 布 .用 fu(.) 表示 U 的 密度 函数 . 记 jp = [oR au, 


vj 一 for wen, H = diag(1,h) @ Ip, 其 中 , @ 表示 Kronecker 乘积 . 
Q(u) = E(XXT|U =u), T(u)= E(XX707(U,X)|U = u), (3.1.5) 
o?(u, x) = Var(Y |U = u, X = 2). (3.1.6) 


定理 3.1.1 4 E(Yt|U = u, X = x) Æ u = u 的 邻 域内 有 界 , BE(||XIl3IU = u) 
在 uo 点 连续 , aj (u) (J 二 1,… ,Pp) Æ uo 的 一 个 邻 域内 连续 , 函数 fulu), R(u), T (u) 
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和 o2(u,z) Æ u = up 有 连续 的 一 阶 导 数 且 fulu) > 0 与 8(uo) > 0, RHR K(-) 
是 有 界 的 密度 且 具 有 紧 支撑 ,hh 一 0 A nh 一 oo, 则 

h? (u3 — pip3)a” (uo) 2 
veh {HBc 时 2(12 — 12) sta a te = oa) EU )} 
?, N(0, A-!AA™!), (3.1.7) 


其 中 ，- 卫 ,表示 以 分 布 收效 且 
A = fu (uo) ( Pte ) @ N(uo), A= fu(uo) ( adi ) Q T (uo). (3-1.8) 
Hı be v v2 


进一步 地 , 如 果 核 函数 K(-) 是 对 称 的 , 那么 


Vnh fatuo) — a(uo) 一 a a" (uo) + oth?) | -2> N(0, E (uo)), (3.1.9) 


其 中 ， 
E (uo) = vo~ (uo) P (uo) 2T (uo)/ fu (uo). (3.1.10) 
当 K(.) 对 称 时 , 估计 量 Gj (uo) 的 均 方 误差 (MSE) 是 
pe}, 2 (uo)T (uo) 2 *(uo)e;,p 
nh fu (uo) $ 
其 中 , ejp 为 2p x 1 单位 向 量 , 其 第 7 个 元 素 是 1. 由 此 可 得 到 最 优 窗 宽 为 


~ {fo er nie a 
ots u3 fu (uo) [a’f (uo)}? 
如 果 使 用 最 优 窗 宽 hj opt, 那么 MSE AM n-4/5. 
值得 指出 的 是 , Cai 等 (2000) 研究 了 非 线性 时 间 序 列 数据 下 的 函数 系数 回归 模 
型 , 利用 局 部 线性 回归 技术 构造 了 系数 函数 的 估计 量 , 并 在 样本 为 a 混合 下 给 出 了 
与 定理 3.1.1 类 似 的 结果 . Fan 和 Zhang (1999) 给 出 了 系数 函数 的 两 步 估 计 , 得 到 
了 估计 量 的 渐 近 均 方 误差 , 并 证 明了 它 能 达到 了 最 优 收敛 速度 . Cai 等 (2000) 研究 
了 广义 变 系数 模型 的 估计 和 检验 问题 , 使 用 局 部 多 项 式 回 归 技 术 构造 了 系数 函数 的 
估计 , 建立 了 所 给 估计 量 的 渐 近 正 态 性 , 并 基于 非 参 数 最 大 似 然 比 检验 类 提出 了 一 
个 拟 合 优 度 检验 方法 , 同时 使 用 条 件 bootstrap 方法 估计 了 检验 的 零 分 布 . Fan 和 
Zhang (2000) 研究 了 模型 (3.1.1) 中 系数 函数 的 共同 置信 带 和 假设 检验 问题 . Zhang 
和 Lee (2000) 针对 系数 函数 的 局 部 多 项 式 估 计 研 究 了 变 窗 宽 选 择 问题 . Cai (2004) 
对 广义 变 系数 模型 用 两 步 估 计 方 法 构造 了 系数 函数 的 估计 量 , 并 得 到 了 所 提出 的 估 
计 的 渐 近 正 态 性 、 均 方 误差 和 最 优 收敛 速度 . Ip 等 (2007) 将 广义 似 然 比 检验 方法 
应 用 到 系数 函数 的 检验 , 并 研究 了 所 给 检验 统计 量 的 渐 近 性 质 . 


MSE = [ay(uo)]2 + 
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3.1.3 ”光滑 样 条 估计 


系数 函数 光滑 的 另 一 个 估计 方法 是 由 Hastie 和 Tibshirani (1993) 提出 的 光滑 
样 条 法 , 即 最 小 化 


D 3 yas won] +N [lose [a"”(u)]2du (3.1.11) 
t=1 
来 获得 a1(w),… ,ap(w) 的 估计 , 其 中 , 入 = (A1,… ,和 Xp) 了 是 光滑 参数 . 这 是 一 个 颇 
具 权 威 的 思想 , 但 有 几 个 潜在 的 问题 . 首先 , 有 p 个 参数 需要 同时 选择 , 这 在 具体 实 
施 中 有 相当 大 的 难度 . 其 次 , 计算 上 也 是 一 个 挑战 . Hastie 和 Tibshirani (1993) 提出 
了 一 个 迭代 算法 , 并 详细 描述 了 计算 的 细节 . BH, 得 到 估计 量 的 样本 性 质 有 一 定 
的 困难 . 用 这 个 方法 得 到 的 结果 能 否 达 到 与 一 步 程序 一 样 的 最 优 收敛 速度 , 还 是 一 
个 有 待 于 解决 的 问题 . 
3.1.4 多 项 式样 条 估计 

1. 估计 方法 

所 谓 多 项 式样 条 , 就 是 在 内 结 点 集合 上 将 多 项 式 与 光滑 结合 在 一 起 的 分 片 多 项 
sh. 为 了 精确 地 表述 这 个 概念 , 假设 区 间 U 上 的 结 点 序列 为 &0 < & <… < Emi, 
其 中 , 6 和 Emy BU 的 端点 . U 上 的 1 > 0 次 多 项 式样 条 就 是 每 个 区 间 (Em, Emt) 
和 Em, Emy] 上 的 1 次 多 项 式 , 并 且 都 有 1 一 1 (1 > 1) 阶 连续 导数 , 其 中 , 0 < m < 
M 一 1. 分 片 常数 函数 、 线 性 样 条 、 二 次 样 条 和 三 次 样 条 分 别 对 应 于 ! = 0,1,2,3. R 
有 特殊 次 和 结 点 的 样 条 函数 的 采集 来 自 线性 函数 空间 , 它 容 易 构造 合适 的 基 . 例如 ， 
三 次 样 条 和 结 点 序列 为 &0,.… mq 的 空间 来 自 M + 4 维 线性 空间 . 这 个 空间 的 
截断 权 基 是 1,z, z2, 73,(z 一 513,… , (Zz 一 Em)3. 具有 较 好 数字 特性 的 基 是 B 样 条 
基 , 参见 文献 (Boor, 1978; Schumaker, 1981) 关于 样 条 函数 的 综合 论述 . 

假设 模型 (3.1.1) 中 的 系数 函数 aj(w) (7 = 1,---,p) 是 光滑 的 , 则 它 能 很 好 
地 用 一 个 样 条 函数 a;(w) 来 逼近 , 即 当 5 样 条 的 结 点 数目 趋 于 无 穷 大 时 sup |aj (u) 一 


a;(u)| 一 0 (Boor, 1978; Schumaker, 1981). 因此 , 存在 一 个 基 函 数 集合 BeO (BI B 
样 条 ) 和 常数 Bs, (8 =1, Ky), 使 得 


Kj 
a;(u) ~= až (u) = >》 83s Bjs(u), (3.1.12) 
s=1 
MA, 最 小 化 关于 6 的 函数 


n p Kj 2 
(6) = D k = > (Esen) x| (3.1.13) 


j=l 
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可 得 到 B 的 估计 , 其 中 , B = (81,… Bp)", By = (Ba Bar)" 假设 式 (3.1.13) 
可 唯一 最 小 化 且 记 它 的 最 小 值 为 B = (By, By)", By = (Êm ÂU = 


K; 
a;(u) = >> BjsBys(u), j = ly "yp. 
s=1 


BK G;(u) 为 aj(u) Kh HERAT. 

(8 FE Se 7s RAT WB — A Hh YF RAOR tS AK, 如 多 项 式 基 和 
Fourier 基 . 这 里 考虑 B 样 条 是 因为 它 有 优良 的 样 条 逼近 性 质 和 好 的 B 样 条 基 的 数 
字 特 性 . 当 使 用 B 样 条 时 , 式 (3.1.12) 中 项 K; 的 数目 依赖 于 结 点 的 数目 和 B 样 条 
的 阶 . 注意 到 不 同 的 a;(w) 允许 不 同 的 Ki APARRI aju) 有 不 同 的 光滑 度 时 , B 
样 条 就 提供 了 适应 性 . 

2. 结 点 数 的 选择 


结 点 数 作为 光滑 参数 , 起 着 与 局 部 线性 方法 中 的 窗 宽 一 样 的 作用 . 虽然 一 个 主 
观 的 光滑 参数 可 以 通过 检查 估计 曲线 或 残 差 图 来 确定 , 但 利用 数据 选择 K; 的 自动 
程序 也 是 有 实际 兴趣 的 . 通常 是 最 小 化 一 个 准则 函数 来 选择 结 点 数 , 这 里 考虑 4 个 
准则 函数 : AIC (Akaike, 1974), AICc (Hurvich and Tsai, 1989), BIC (Schwarz, 1978) 
和 修正 的 交错 验证 (MCV) (Cai, et al., 2000). 用 n 表示 式 (3.1.13) 右边 项 的 个 数 ， 
p= >_K; 是 待 估 参 数 的 个 数 , RSS = 1(B) ÆR (3.1.13) 中 残 差 平方 和 的 最 小 值 . 
前 三 个 准则 定义 为 
l AIC = log(n™ RSS) + 2pn~}, 
Aitoa NO4 RELOD. 
n(n — p— 2) 
BIC = log(n RSS) + pn ! logn. 
MCV 准则 可 以 看 成 一 个 修正 的 多 块 交 错 验证 准则 , 对 时 间 序 列 数据 非常 有 用 . 设 
m AQ 是 两 个 给 定 的 正 整数 且 n>m. 使 用 长 度 为 n 一 gm (9g = 1,… ,Q@) HF 
序列 来 估计 系数 函数 aj, 基于 信 计 的 模型 来 计算 长 度 为 m 的 下 一 段 时 间 序 列 的 一 


步 预测 误差 , 那么 MCV 准则 函数 是 AMS= > AMS,, 其 中 ， 


q=1 
1 n-—qm+m Pp Kj 3 
aa m > 到 一 > > AP Bys(Ui) Xij| ， G=1,---,Q, 
i=n—qm+1 j=1 \s=1 


{6} 是 用 样本 {(Ui, Xi, Yi); 1 <i <n — qm} 计算 得 到 的 估计 . Cai 等 (2000) 建议 
189 m = [0.1n] 5 Q= 4. 
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3. 相合 性 和 收敛 速度 


为 了 表达 清楚 起 见 , 下 面 用 函数 空间 记号 表示 样 条 估计 . 设 9; 是 7 上 有 固定 
阶 和 结 点 的 多 项 式样 条 空间 , 具有 有 界 的 网 状 比 ( 即 连续 结 点 之 间 的 不 同比 是 有 界 
的 且 大 于 0), 则 可 由 下 式 获得 样 条 估计 âj: 


2 
机 本 
a= ae pip So (Sete xu) I(U;€C), j=1,.…,p. 
ĉi 7 i=1 j=1 


上 式 本 质 上 与 式 (3.1.13) 相同 , 但 它 用 到 了 函数 空间 记号 (假定 Bjs (s = 1,… , Kj) 
是 9; 的 一 个 基 ). 这 里 , 在 最 小 二 乘 准则 中 用 权 函 数 是 为 了 屏蔽 观察 以 外 的 数据 , 这 
是 遵循 非 参 数 时 间 序 列 的 常见 用 法 (Tipstheim and Auestad, 1994). 


1/2 
下 面 在 紧 区 间 C 上 考察 样 条 估计 的 性 质 . 设 llall = | f a(t 是 C 上 平 
方 可 积 函 数 的 Za 模 . 如 果 Ia; -ajll 5 0 (n 一 oo), 则 称 â; 是 a; 的 相合 估计 . 记 


Kn = max Ky; Png = BUD lg — illz, pn = max pm; = inf lg — alle. 


定理 3.1.2 设 

(1) Ui 的 密度 函数 在 C 上 一 致 有 界 且 大 于 0; 

(2) 42M E(X:XT|U: = u) 的 特征 根 在 C 上 一 致 有 界 且 大 于 0; 

(3) Kn = an", 0<r<1, c >0 为 常数 ; 

(4) {(U Xi Yi); 1 <i < n} Ra 混合 过 程 , 并 且 混合 系数 al) 满足 aln) < 
can’, 6 > (5/2)r/(1 = r), c2 > 0 为 常数 ; 

(5) 对 某 个 充分 大 的 m > 0, E(|Xij\™) < 00, j= 1, -p 

(6) 6i 与 (Ui, Xi) G =1, -p i <i) Fe ey (i <i) 独立 , E(ei) =0, Var(ei) < 
c3, HP, c3 > 0 为 某 个 常数 (RFRATARFAZ), 则 


llâ; — a;l = Op (Knn7'+ p2), j=1,.…,p. 


特别 地 , 如 果 pn = o(1), BA a; 是 a; 的 相合 估计 , BM lâ; 一 ajllz = op(1), j = 
T A 

定理 3.1.2 给 出 了 与 iid 数据 同样 的 收敛 速度 (Stone, et al., 1997; Huang, 1998). 
XE, K, 用 来 度量 估计 空间 9; 的 大 小 .pn 用 来 度量 逼近 误差 的 大 小 , 它 由 诸 aj 
的 光滑 度 和 样 条 空间 9; 的 维 数 来 确定 . 例如 , 如 果 al =1,--- ,p) 有 有 界 连 续 导 
数 , 那么 pn = O(K,,?) (DeVore and Lorentz, 1993, 定理 7.2). 在 这 种 情况 下 , a; 收 
HB a; 的 速度 是 n`! Kn + Kis. 特别 地 , ERK, 随 着 样本 量 n 的 增加 而 增加 , 并 
BS nl/5 同 阶 , 则 a; 的 收敛 速度 是 n745. 定理 3.1.2 的 证 明 可 参见 文献 (Huang 
and Shen, 2004). 
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3.2 ”纵向 数据 分 析 


3.2.1 模型 


纵向 数据 常常 在 生物 医学 和 计量 经 济 学 研究 中 出 现 , 此 类 数据 的 例子 也 可 以 在 
临床 试验 和 疾病 追踪 研究 的 文献 中 看 到 . 考虑 来 自 个 个 体 的 数据 , 其 第 i 个 个 体 
具有 ni(i = 1,… ,n) 次 观测 , 总 的 观测 数 为 N = Soni. 设 ty 是 第 i 个 个 体 的 第 


JG=1, m) 次 观测 时 间 ,2 二 Yil) 和 Xi5) 分 别 是 第 i 个 个 体 在 时 间 1, 
的 响应 变量 和 协 变量 的 观测 , 其 中 , Yy 是 实 值 变量 , X(t) 是 p x 1 向 量 . 虽然 由 
{Mti Xi(tiz), Vig); 1 <ign,1l<j< ri} 给 出 的 纵向 测量 在 不 同 的 个 体 之 间 是 独立 
的 , 但 在 同一 个 体内 的 重复 测量 可 能 是 相关 的 . 响应 变量 和 协 变量 的 依赖 关系 由 下 
面 的 时 间 变 系数 模型 给 出 : 


Yij = BY (tig) Xi(tiz) + eilti;), (3.2.1) 


Hep, X(t) = (1,Xa(t),---,Xip))™, Xat) 是 时 间 t 的 实 值 协 变 量 ，B(t) = 
(Bo(#),… ,8p(t))™ 是 未 知 回归 系数 向 量 且 Alt) € RU = 0,… ,Pp), 误差 clt) 是 
均值 为 0 的 随机 过 程 且 e(t) 是 独立 的 . 不 失 一 般 性 , 不 需要 限定 t;; 是 非 负 的 , 即 
tij € R. 
3.2.2 ”局 部 核 估 计 

1. 估计 方法 


假设 (X(t), Y(t) 与 (Xi(t), Yi(t)) 同 分 布 . 对 于 每 一 个 给 定 的 t+ e R, 模型 
(3.2.1) 的 等 价 形式 是 
Y(t) = BT(t)X(t) + e(t), (3.2.2) 
其 中 , c(t) 是 均值 为 0 的 随机 过 程 , 其 方差 为 olt) 且 协 方差 为 pelti, tz), e(-) 和 
X(-) 相互 独立 . 假设 给 定 te R 的 条 件 期 望 E[X(t) 叉 T(t)] 各 [X(t)Y(t)] FE, 
FE E[X(t)XT(t)] Wit. ABA, HFE t ER, A(t) 是 ELY (t) -bT X(t) 的 
唯一 最 小 值 , 并 且 由 下 式 给 出 : 

B(t) = {EIX (EXT HJ ELX (HY (6). (3.2.3) 
因此 , 估计 B(t) 的 一 个 自然 的 方法 是 利用 局 部 最 小 二 乘 准则 . 设 K(-) 是 一 个 Borel 
可 测 的 核 函 数 , h 是 可 依赖 于 n 和 mi 的 正 的 窗 宽 , 那么 , 8(t) 的 局 部 核 估计 可 通过 
极 小 化 a a 

Ly (B(t)) = $ 9 {Yi — b(t) X (tas)? Kalti — t) 


i=1 j=1 
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而 得 到 , 其 中 , Kal) = K(-/h). 称 该 估计 量 为 局 部 核 估 计 , 并 记 为 BLk(t). 可 以 将 
Ln(b(t)) 等 价 地 写作 如 下 矩阵 形式 : 


Ly (b(t) = X Y: — Xb(t)] K: (t) (Y: — Xib(t)), (3.2.4) 


i=l 


Xiplti)) (G = 1,… ,mi), Kil) 是 一 个 对 角 核 矩阵 , 即 


Ki(t) = diag(Ka(ti — t),--- , Kn(tin, — t)). 


假定 ST XT K(X, 也 是 可 逆 的 , 那么 Ay x(t) 作为 式 (3.2.4) 的 唯一 最 小 值 可 由 
下 面 的 p + 1 维 列 向 量 给 出 : 


n -1 n 
Bix(t) = (È FOX (È x? Koy: . (3.2.5) 
i=1 i=1 

使 用 Br x(t) 的 好 处 是 它 的 数学 表达 式 简 单 清 晰 , 在 实际 中 容易 实现 , 并 且 具 
有 优良 的 渐 近 性 质 . 然而 , 因为 BLk(t) 仅仅 包含 一 个 窗 宽 , 当 Bo(t),… ,B,(t) 是 
不 同 的 光滑 族 时 , 它 不 能 对 8(t) 的 所 有 分 量 提供 适当 的 光滑 . 因此 , 进一步 研究 其 
他 最 小 二 乘 估计 方法 是 必需 的 , 如 光滑 样 条 和 局 部 多 项 式 估计 , 它们 用 多 个 光滑 参 
数 以 适应 B0(t),… , B,(t) 的 不 同 光滑 的 需要 . 

2. 窗 宽 选 择 


下 面 考 虑 窗 宽 选择 问题 . 由 于 个 体 之 间 是 独立 的 , 因此 , 由 Rice 和 Silverman 提 
出 的 一 个 直观 的 窗 宽 选 择 方法 是 “ 抛 出 一 分 量 ” 交错 验证 (“leave-one-subject-out” 
cross-validation). 假设 要 测量 Bjk(t) 的 风险 , 常常 使 用 它 的 平均 预测 平方 误差 


(average prediction squared error) 


APSE(B) = $ > > EY; — Bex (tis) Xalta) P) 
i=1 j=1 
其 中 , Yg 是 在 (tay, Xi(tiy)) 处 的 一 个 新 观测 . 那么 “ 抛 出 一 分 量 * 交错 验证 准则 可 
由 下 式 给 出 ; 
CV(h) = x 2 2M = By” (tis) X (tig), (3.2.6) 
其 中 , A O 是 用 删除 第 i 个 个 体 以 后 的 所 有 观测 得 到 的 B(.) 的 估计 , 这 里 取 局 部 
核 估计 景 . 最 小 化 OV (h) 可 以 得 到 一 个 交错 验证 窗 宽 hcv, 即 hov = inf CV(h) 
此 准则 可 以 很 容易 地 推广 到 其 他 光滑 估计 , 如 光滑 样 条 和 局 部 多 项 式 . 
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3. 主要 结果 
现在 给 出 Bix(to) 的 渐 近 分 布 . 下 文 假定 设计 点 列 {tij;1 <i <n, <j <ni} 
iid, 并 且 具 有 公共 的 密度 f. 记 S) 为 f 的 支撑 . 设 如 是 SO) WAR, 并 记 
az2(to) = Ele?(to)], pelto) = lm Ele(to + A)e(to)], 
wir(to) = E|Xu(tij)Xir(ti;)lti; = to], ,7=0,.…,p, 


Q(to) 是 一 个 (p 十 1) x (p 十 1) 矩阵 ,其 (1,7) 元 素 为 wr (to). 

定理 3.2.1 假设 下 列 条 件 成 立 : 

(1) 对 某 一 常数 ho > 0, h = hoN-1/5; 

(2) 对 某 一 0< 入 <o0, lim N-8/5 Sn? =A; 

$1 

(3) 核 函 数 KO 是 具有 紧 支撑 的 对 称 概率 密度 且 满 足 [Rr wou zo 

(4) 存在 常数 6 > 0, 使 得 E(\e(t)|?*9) < CO， E(\Xu(tsz)\4*?) <oo,i=1,-:-,n, 
j= Lye Nil =0,---, p, tE S(f); 

(5) 对 所 有 lyr =0,--- ,p, Br (t), wir(t) 和 f(t) 在 to 点 具有 连续 的 二 阶 导数 ; 

(6) o?(t) 和 pelt) Æ to 点 连续 , 则 


VNRIBLk(to) — B(to)] -— N(B(to), R (to)T (to) 2 *(to)). 
其 中 , Pto) 是 一 个 (p+ 1) x (p+ 1) HM, 其 (Lr) AKA 
vir (to) = o° (to)wr(to)(f(to)) * [Re wa + Ahope(to)wir (to), 


B(to) = (F (to))* R~ * (to) (bo(to),--+ ,加 (to)) 


bi(to) =h SOIB, lto) (to) to) + Bi (to wre (to) f’ (to) 


k=1 


+ (1/2) (to)urn(to)f(to)) fu?K (udu 


其 中 , ,rr =0,--- yp. 

上 述 结果 是 由 Wu 等 (1998) 给 出 的 , 其 证 明 可 以 在 文献 (Wu, et al., 1998) 中 
RAL. Wu 等 (1998) 给 出 了 记 jk(to) 的 渐 近 偏差 和 方差 的 估计 , 从 而 可 利用 定理 
3.2.1 构造 8(to) 的 置信 域 . 同时 , Wu 等 (1998) 也 构造 了 B(to) 的 Bonferroni 类 置 
言 带 . 
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注 3.2.1 在 定理 3.2.1 中 , 如 果 将 条 件 (1) KA = o(N-L15), 但 条 件 (2)~(6) 
被 满足 , 则 渐 近 偏差 项 消失 且 有 


VNRIBL k(to) — Bttol + N(0, 271(to) I (to) 27} (to)). 


注 3.2.2 ”定理 3.2.1 的 一 个 直接 含义 是 : 为 了 确保 Bix (to) 有 好 的 渐 近 性 
质 , 重复 测量 的 数目 n1,… ,mn 必须 比 样本 量 N FAX). Hoover 等 (1988) 证 明了 
By x (to) 是 Ato) 的 相合 估计 当 且 仅 当 > n; = o(N?), 也 即 等 价 于 max (ni/N) = 
i=l Wiii 
o(1). 这 里 假定 稍 强 的 条 件 Dn = o(N6/5) 是 为 了 确保 B, (to) 能 达到 收敛 速度 
i=1 
N-2/5. 


值得 指出 的 是 : Wu 等 (2000) 提出 了 系数 函数 的 两 步 核 估计 方法 来 修正 普通 
的 核 估计 , 其 基本 思想 是 首先 中 心 化 协 变量 , 然后 基于 局 部 最 小 二 乘 准 则 来 估计 系 
数 函 数 . 他 们 研究 了 所 给 估计 量 的 大 样本 性 质 , 并 通过 模拟 研究 和 实际 数据 分 析 说 
明了 两 步 核 方法 优 于 普通 的 最 小 二 乘 核 方法 . 

在 许多 情况 下 , 如 流行 病 研 究 , 协 变量 X 不 依赖 于 也 仅仅 响应 变量 Y 随时 
间 ¢ 作 重 复 测 量 ， 如 果 假 定 EX XT) 是 可 逆 的 , WAR (3.2.3) 可 简化 为 8(t) = 
{E(X X7)}-1E[XY(t)]. E(XXT) 的 一 个 显然 估计 是 它 的 相应 样本 平均 .因此 ， 
仅仅 通过 构造 ELXY (t) 的 光滑 估计 就 可 以 给 出 8(t) 的 计算 简单 的 估计 . Wu 和 
Chiang (2000) 研究 了 协 变量 独立 于 时 间 的 变 系数 模型 Y( = BTX + elt), 他们 
基于 逐 分 量 最 小 二 乘 准则 提出 了 两 个 时 间 变 系数 的 核 估 计 , 通过 均 方 误差 和 积分 均 
方 误差 研究 了 所 提出 的 估计 量 的 理论 特性 , 并 构造 了 系数 函数 的 逐 点 置信 区 间 . 
3.2.3 ”局 部 多 项 式 估计 

为 了 方便 起 见 , 记 Xilty) = Xij, Xy = (ij0 Xij), 1 一 17 一 
1,… ,Ti， 对 于 每 个 个 体 i, W Yi = (Yas Yini)", Xiu = diag(Xiu,--- ,Xin,). 
假设 Wij(t) (i = 1,…,n,j = 1,… ,mi) Bt; A t HRM. 在 实际 计算 中 , 可 取 
Wi; (t) 为 核 权 或 最 近邻 权 函 数 . 对 于 每 个 1 < i < n, BB, 是 n; x d HHH, 其 
(9,7) 元 素 为 (tiq — t)"—!, 并 设 Wi;(t) = diag(Wa (t), --- , Win, (t)) 是 一 个 对 角 权 算 
RE. 最 小 化 bi(t) 的 局 部 加 权 平 方 和 


n 


P 2 
LF Y,- A] W(t) K 一 2X :Bibi(t) ; (3.2.7) 
全 二 0 1=0 

可 以 得 到 B(t) 的 局 部 多 项 式 估 计 B, p(t) =(bo(t),---,bp(t)), HF, b(t)= ult), 
ba(t))T. 
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由 式 (3.2.5) 给 出 的 局 部 核 估计 Bzx(t) 是 上 述 局 部 多 项 式 估计 B, p(t) 当 d = 1 
时 的 特殊 情况 . 估计 量 Br p(t) 的 最 优 窗 宽 仍 可 以 按 式 (3.2.6) 定义 的 准则 来 选取 . 
需要 说 明 的 是 : B, p(t) 的 渐 近 性 质 还 没有 作 深 入 研究 , 这 是 一 个 公开 的 问题 . 
3.2.4 ”光滑 样 条 估计 

假设 B,(t) (1 = 0,… ,p) 是 二 次 连续 可 微 的 , 其 二 阶 导数 prt) 有 界 且 平 方 可 
积 . Hoover 等 (1998) 按照 Hastie 和 Tibshirani (1993) 的 思想 建议 , 通过 最 小 化 


B,N) = > 区 - 2 Ail Xs] + ya fia [Ay (t)]?at (3.2.8) 


i=1 j=1 
来 获得 B(t) = (Bolt) ,Bp(t))? 的 估计 量 , 其 中 , A = (Xo,… Ap)” 是 正 的 光滑 
BR, 它 是 用 来 惩罚 B0(t),… ,B,(t) 的 粗糙 程度 . 
Hastie 和 Tibshirani (1993) 证 明了 在 一 定 的 条 件 下 , 由 .J(B, 和 ) 得 到 的 估计 量 
是 唯一 的 , 称 该 估计 量 为 光滑 样 条 估计 , 并 记 为 Bsslt). 
为 了 最 小 化 式 (3.2.8) 的 J(B, A), 利用 样 条 基 函 数 表 示 Bolt), Bp) 是 方便 
的 . 用 下 列 形式 来 表达 每 一 个 plt): 


d 
A(t) = >> wi B,(t) = BT (tn, (3.2.9) 


r=1 
其 中 , d > 1 (-oo < 上 < œ), % = (Vb Yar)? 是 实 值 系数 , Blt) = (Bilt),---, 
Balt) T 是 基 函 数 集 . 然后 最 小 化 二 次 函数 J(B, 入 ) 来 找 系数 向 量 7i(! = 0,--- ,p)- 


为 此 , 记 
Biltu) … Baltii) 
B; = : : ’ 
By (tin; ) i Ba(tin; ) 


并 记 N Æ dxd FEM, 其 (i,j) 元 素 为 Rij = WAAL Yi = (Ya Yin)? 
Xi = = diag( Xiu, - Xin; i) 那么 ， 式 (3. 2: 8) 等 价 于 


n Pp 
J(B, A) =>, e: = 5: xuan] K 一 5 XuBin + NY RY (3.2.10) 
i=1 1=0 


l=0 l=0 


MRA 8J(B,A)/8y = O(l = 0,… ,p), WAR (3.2.10) 的 最 小 值 (yo,… ,7Y,) W 
足 正则 方程 组 


n Pp Pp n 
be [ruso > Xie + Ài 2+, = Y (XiB)"Y;, 1=0,--- +P. 


i=] t=0 1=0 =) 
(3.2.11) 
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如 果 正 则 方程 组 (3.2.11) 有 唯一 解 (Fo Fp), ABA, 不 失 一 般 性 , 存在 dx ni 
矩阵 Ni (i=1,---,n,l1=0,--- ,p), 使 得 


Ñi = >》 NuaY:, l= 0, t’ P- (3.2.12) 
i=1 


用 ($0o,… Vp) 代替 式 (3.2.9) 中 的 (yo,… s Yp), 即 可 得 到 相应 的 估计 量 , 即 


Bit) = BNaYi, 1=0,---,p. (3.2.13) 
i=l 

这 个 线性 系统 解 (3o，…… Vp) 的 存在 性 和 唯一 性 依赖 于 设计 矩阵 Xi 和 tili = 
1,… ,n). 对 于 光滑 样 条 的 实际 执行 , 人 们 必须 选择 适当 的 光滑 参数 向 量 和 和 基 函 
数 . Mak (3.2.8) 可 以 看 出 太 大 的 A, 会 对 B1(t) 的 凸凹 性 进行 过 分 的 惩罚 , 这 就 导 
致 一 个 超 光滑 的 估计 B,(t). 相反 地 , AD A. 会 导致 一 个 欠 光 滑 的 估计 B,(t). 

实际 上 , 如 果 式 (3.2.11) 的 唯一 解 存在 , 那么 此 解 可 以 直接 求 得 或 使 用 Hastie 
和 Tibishirani (1990) 提出 的 后 移 (backfitting) 算法 得 到 . 注意 到 式 (3.2.11) 构成 
(p+1)d x (p+1)d 阶 方程 系 , 它 可 以 被 用 来 求 出 所 有 估计 量 的 解 . 一 个 实际 的 问题 
EH d 相当 大 时 给 解 方程 组 带 来 了 困难 . 后 移 算法 正 是 克服 这 一 困难 的 一 个 方法 . 
利用 具有 相对 小 的 固定 同等 空间 结 点 的 样 条 来 逼近 光滑 样 条 解 , 也 能 够 妥当 地 逃避 
d 太 大 的 困难 , 这 就 彻底 削减 了 计算 的 维 数 . 关于 纵向 观测 下 B,(t) (1 = 0,… ,p) 的 
深入 理论 特性 需要 进一步 研究 . 

式 (3.2.6) 也 可 以 用 来 选择 光滑 样 条 估计 的 光滑 参数 . 对 于 由 式 (3.2.7) 得 到 的 
局 部 多 项 式 估计 Bj p(t), 最 小 化 CV (h) 将 得 到 单一 的 窗 宽 hcv. 当 Bolt), Bp(t) 
满足 不 同 的 光滑 度 条 件 时 , 相应 的 估计 曲线 不 能 够 很 好 地 拟 合 系数 曲线 . 对 于 本 节 
提出 的 光滑 样 条 估计 , 交错 验证 光滑 参数 包含 A0.cy,… , 和 Ap.cv. 直观 地 , 光滑 样 条 
中 特别 多 的 光滑 参数 能 够 被 用 来 满足 非 参 数 分 量 的 不 同 光滑 度 的 需要 . 从 光滑 参数 
上 讲 , 光滑 样 条 估计 优 于 局 部 多 项 式 估计 . 

Chiang 等 (2001) 利用 光滑 样 条 方法 研究 了 变 系数 模型 Y(t) = BT(t)X + elt). 
为 估计 非 参数 系数 函数 , 他 们 提出 了 逐 分 量 光滑 样 条 方法 , 研究 了 所 构造 的 估计 量 
的 渐 近 正 态 性 , 并 给 出 了 样 条 估计 的 风险 的 渐 近 表示 . Eubank 等 (2004) 进一步 考 
虑 了 模型 (3.2.1) 中 系数 函数 的 光滑 样 条 估计 , 发 展 了 系数 曲线 的 Bayesian 置信 区 
间 , 为 计算 曲线 估计 和 拟 合 值 等 提供 了 有 效 的 计算 方法 . 


3.2.5 “最 小 二 乘 基 估 计 
1. 估计 方法 


假设 对 每 一 个 ! = 0,… ,p， 有 一 个 基 函 数 Bi,(t) 和 常数 77, HRA, s = 
lyst: Kı, 使 得 
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Kı 
Bilt) ~ >》 vi Bis(t), tEF, 
s=1 
那么 , 可 以 用 


p 
Ya ~ D> Xulty) vis Bes (tes) + eilti) 
1=0 s=1 
IRER (3.2.1), 并 且 通 过 极 小 化 


2 


n ni p K 
Uy) = Yr Wi frs = YDYS Xalto) Balton} (3.2.14) 


i=l j=1 l=0 s=1 
来 估计 yi HP, 7 = (YoY) MH = Muson)", wi 是 第 i 个 个 体 
的 非 负 权 且 So niwi = 1. 假设 iy) 有 唯一 的 极 小 值 ， 并 记 它 的 极 小 值 为 了 = 
i=l 
(Fa: da Wn) 其 中 ， şi a: (Ju; an ;JLKL), i= 0, ‘+ y 那么 ， 自然 用 
Kı 
A(t) = 》 fis Bis (t) 
s=1 
来 估计 Alt), 并 称 Bilt) 为 Br(t) 的 最 小 二 乘 基 估计 . 


为 了 给 出 了 和 A(t) 的 明确 表达 式 , 引入 下 面 一 些 记 号 . 记 Ulty) = [XT(tij) 
B(tiz)|", Ui = (Ui(ta), ,Ui(tin,))?, Wi=diag(wi,--- ,wi), Yi = (Yine ,Yin,)7; 


Boi(t) eee Box, (t) 0 ... 0 0 eee 0 
Bt)=| : a: - : ’ 
0 eas 0 QO sr QO Boi (t) ene Bpx, (t) 
那么 式 (3.2.14) 等 价 于 
Uy) = $ (Y: - Ui) "W:(Y: - Ui). (3.2.15) 
i=1 


假定 SOUT WU, EAW, 那么 最 小 二 乘 估计 3 是 唯一 的 且 定 义 为 
i=1 


+= bs of (È urw.) (3.2.16) 


i=1 i=l 
利用 这 个 矩阵 表达 式 , 可 以 将 B(t) 的 最 小 二 乘 基 估计 号 为 
Brse(t) = (Bo(t), --- ,8,(t))" = BOA. (3.2.17) 
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注 3.2.3 ”由 基 函 数 {Bu,  , Bix,} 生成 的 线性 函数 空间 C 唯一 地 确定 基 估 
tt A(t) (0 < 1 <p). 不同 的 基 函 数 集 可 以 用 来 生成 同一 个 空间 C, 因此 , 虽然 相应 
的 + 可 能 不 同 , 但 却 给 出 同一 个 估计 量 ĝl). 例如 , B 样 条 基 和 截断 权 基 都 可 以 被 
用 来 生成 样 条 函数 空间 . 

注 3.2.4 在 人 和 Bisp(t) 的 理论 和 实际 特性 上 , 对 式 (3.2.14) 中 wi 的 选 
择 需要 一 个 重要 的 说 明 .， 选择 w; = 1/N 相当 于 对 每 一 个 观测 有 相同 的 权 , 而 取 
wi 三 1/(nni) 相当 于 对 每 一 个 个 体 有 相同 的 权 . 可 以 想象 , w; 的 理想 选择 可 能 依 
赖 于 数据 个 体内 的 相关 结构 . 然而 , 真实 的 相关 结构 在 实际 中 常常 是 未 知 的 , 如 果 
ni(i 三 1 … ,n) 相对 较 小 , wi = 1/N 似乎 是 一 个 实用 的 选择 ; 否则 , 取 wi = 1/(nni) 
是 适合 的 . 


2. 选择 基 


任何 一 个 函数 逼近 的 基 系 都 可 以 被 使 用 . 当 基 本 函数 具有 周期 性 时 , Fourier 基 
是 可 取 的 , 多 项 式 也 是 常用 的 选择 , 它 能 对 光滑 函数 提供 好 的 逼近 . 然而 , 这 些 基 对 
展示 某 些 局 部 性 质 可 能 不 是 太 敏 感 , 除非 使 用 大 的 K. 从 这 方面 讲 , 多 项 式样 条 是 
值得 提倡 的 . 的 确 , 如 何 用 一 个 相对 小 的 Ki 来 选择 基 使 能 达到 优良 的 逼近 是 一 个 
重要 的 问题 . 对 一 般 的 指导 性 建议 , 可 参见 文献 (Ramsay and Silverman, 1997) 的 
3.2.2 小 节 . 


3. 选择 光滑 参数 
根据 3.2.2 小 节 提 出 的 思想 , 使 用 “ 抛 出 一 个 体 ” 交 错 验 证 方法 来 选择 Ki. 设 


4 是 由 式 (3.2.16) 定义 的 最 小 二 乘 基 估计 , 其 中 , 删除 了 第 i 个 个 体 的 观测 . 用 
下 代替 式 (3.2.17) 中 的 4 可 得 到 估计 量 BGRW). 定义 
afai 2 
SS o {Yy - BERT (ti )Xi(tis)} (3.2.18) 


t=1 j=1 


作为 K = (Ko,… ,Kp) 的 交错 验证 尺度 . 最 小 化 CV(K) 可 得 到 交错 验证 光滑 参 
数 Kov. 使 用 这 个 交错 验证 方法 有 两 个 主要 理由 : 第 一 , 删除 一 个 个 体 的 全 部 测 
量 仍 保持 时 间 数 据 中 的 相关 性 ; 第 二 , 这 个 方法 不 要 求 构 建 个 体内 部 的 相关 结构 . 


4. 主要 结果 
下 面 建立 Bon (t) 的 相合 性 和 收敛 速度 . 为 此 , 首先 引入 一 个 距离 度量 来 评估 
1/2 
上 述 最 小 二 乘 基 估计 的 特性 . 设 lall， = { f aoar} 是 工 上 任 一 平方 可 积 
T 


p 1/2 
实 值 函数 的 Lo 模 , |All = [F taco} 是 A(t) = (aot), ,ap(t))? 的 Le 
i=0 
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模 , 其 中 , a(t) 是 上 的 实 值 函数 . 定义 A(t) 的 积分 平方 误 (integrated squared 
error) 为 


ISE(Â:) = lÂ ~ Gill2, = J (i(t) — Au(t)|Pae, 
T 


ISE(BLss) = Yo Ise (A) 


i ISE(B, sp) > 0, 或 等 价 地 ISE(B) 2, 0(1 = 0,… ,p), WEK Bysp(-) 是 B(-) 的 
相合 估计 . 

因为 在 一 个 线性 空间 中 使 用 函数 来 逼近 A(t), 所 以 ISE(BLss) 的 渐 近 性 依赖 于 
Bu(t) 与 所 选 的 线性 空间 之 间 的 某 个 Lo 距离 . 特别 地 , 设 Cl 是 由 {Bi(t),… , Bi} 
生成 的 线性 空间 , 并 设 DAC) = inf sup|Pu(t) — gH) 是 AC) 和 C 间 的 Loo BE 


离 , 那么 , ISE(BLsp) 的 渐 近 性 质 依赖 于 pn = >》 DAC), 
t=0 

sup |9(t)| 

teT 


An = Án,- 


pecu ol 0 ligllza ` a= de 
对 于 通常 使 用 的 基 , 如 多 项 式 、 样 条 和 三 角 和 矩阵 基 , pn 和 An 的 例子 可 以 在 文献 
(Huang, 1998, §2.2) 中 找到 . 

假设 观测 时 间 点 是 随机 设计 且 在 一 个 有 限 区 间 7 上 取 值 , 即 {tijll <i <n, 
L<j <n} 独立 地 取 自 未 知 分 布 F(-), 并 且 FO 具有 密度 f(-). WK, = wa, Kı. 
X n 一 co 时 , Kn 可 趋 于 无 穷 , 也 可 不 趋 于 无 穷 . 下 面 两 个 定理 给 出 了 By sp(-) 的 
相合 性 和 渐 近 正 态 性 , 其 证 明 可 参见 文献 (Huang, et al., 2002). 

定理 3.2.2 ik 

(1) 存在 正 的 常数 Cl 和 Co, 使 得 对 任何 tET ABA Ci < f(t) < C2; 

(2) 存在 正 的 常数 Ca 和 Cy, 使 得 对 任何 te 了 者 有 C3 < 和 i(t) < C4,1 = 
0,… ,Pp, HP, Alt) <… <Ap(t) Æ [XXT] 的 特征 根 ; 

(3) 存在 正 的 常数 Cs, 使 得 对 任何 te 者 有 |X| < Cs, 1 =0,--- ,p 

(4) 存在 正 的 常数 Co, 使 得 对 任何 teET 了 都 有 Ele?(t)] < Co; 

(5) jim. Pn =0 


Jim jer max { p max c (mwi), Siu 中 一 0， 


t=1 
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则 Brsp(-) 以 概率 1 唯一 存在 且 是 B(.) 的 相合 估计 , ME 
ISE(BLss) = OP (x, 9 new? + a) i 
i=] 


注意 到 定理 3.2.2 对 一 般 的 基 选 择 给 出 了 Bise 的 相合 性 , 其 中 , 包括 多 项 
式 、 样 条 和 三 角 和 矩阵 基 . 然而 , 当 使 用 特殊 类 型 的 基 时 , 可 以 改进 它 的 收敛 速度 . 对 
一 个 很 有 兴趣 的 特别 情况 , 下 面 的 定理 3.2.3 改进 了 一 类 样 条 估计 的 收敛 速度 . 

定理 3.2.3 ”假设 Cl 是 了 上 具有 固定 度数 的 多 项 式样 条 空间 , 连续 结 点 之 间 
的 不 同 的 比 是 有 界 的 且 大 于 0. 如 果 定 理 3.2.2 的 条 件 被 满足 ， 则 


ISE(BLss) = OP (>: new? [(Kn/ni) + 1] + a) - 
i=1 
注 3.2.5 w: 的 不 同 选择 一 般 导 致 估计 量 的 不 同 收敛 速度 . 对 于 定理 3.2.2 的 
一 般 情 况 有 
站 K,,/n, wi = 1/(nni), 
P ap n 
D i 7 Kn Y 12 /N?, wi = 1/N. 
i=1 
正如 Hoover “ (1998) 证 明 的 结论 


Jim Son? /N? = 0 当 且 仅 当 lim max (ni/N) = 0. 
i=1 

因此 , 由 于 利用 局 部 光滑 方法 , wi = 1/N 权 可 能 导致 一 个 不 相合 的 估计 BO), 
而 wi = 1/(nmi) 对 所 有 ni 的 选择 将 导致 相合 的 B(-). 

注 3.2.6 ” 当 给 定 特 殊 的 光滑 条 件 时 , 可 以 通过 确定 D, C) 的 大 小 而 得 到 
更 精确 的 收敛 速度 . 例如 , 当 B.(t) 有 有 界 的 二 阶 导 数 , C HET LAA K, 个 内 结 
点 的 立方 样 条 空间 , 此 时 D(B1,C1) = OLK?) (Schumaker, 1981, 定理 6.27), 由 定理 
3.2.2 得 到 ISE(BLsp) = Op(Kn/n+ K734). 对 Kn = O(n!/5) 的 特殊 选择 , 它 简化 
为 ISE(BLsp) = Op(n-45), 这 正 是 在 相同 光滑 条 件 下 具有 独立 同 分 布 的 非 参 数 回 
归 估 计 的 最 优 收敛 速度 . 

Huang 等 (2002) 利用 定理 3.2.2 和 定理 3.2.3, 并 借助 于 bootstrap 方法 构造 了 
B(t) 的 置信 带 并 进行 了 假设 检验 ，Huang, Wu 和 Zhou (2004) 利用 多 项 式样 条 和 
最 小 二 乘 方法 进一步 研究 了 B(t) 的 估计 问题 , 它们 构造 了 e) 的 相合 估计 , 并 给 
出 了 估计 量 的 收敛 速度 和 渐 近 分 布 , 所 得 结果 可 以 用 来 构造 了 B(t) 的 渐 近 置信 区 
间 和 置信 带 . Fan 和 Zhang (2000) 建议 用 两 步 估计 方法 来 估计 系数 函数 , 提出 了 系 
数 函 数 估 计量 的 标准 差 的 估计 方法 , 并 建立 了 局 部 多 项 式 估 计 的 渐 近 结果 . Wu 和 
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Liang (2004) 考虑 了 一 种 具有 时 间 相 依 光 滑 协 变量 的 随机 变 系数 模型 , 提出 了 用 后 
移 算 法 来 估计 系数 函数 的 思想 . Lin 和 Ying (2001) 对 G(t) 的 累积 函数 提出 了 一 个 
RICH at, 并 证 明了 所 给 估计 的 Vn 相合 性 和 渐 近 正 态 性 . 


3.2.6 ”经 验 似 然 
1. 自然 的 经 验 似 然 


为 了 清楚 地 获得 8(t) 的 置信 域 构造 的 论据 , 从 最 小 二 乘法 的 描述 开始 . 对 于 
给 定 的 时 间 te R, 可 以 最 小 化 均 方 误差 B{[Y(t) -BOTOX HY 的 样本 版 本 定义 
B(t) 最 小 二 乘 估 计 , 或 者 解 方程 EYE - BT TOXO = 0. 这 就 等 价 于 求 
EB{[Y(t) — BOX WPH 的 最 小 值 , 或 求解 ELLY t) 一 BY OXOX (OHS = 
0, 其 中 , f(t) A ty 的 密度 . 因为 与 给 定 上 的 条 件 期 望 有 关 , 需要 局 部 光滑 方法 得 到 样 
本 版 本 . 为 了 定义 经 验 似 然 估 计量 , 可 利用 约束 E{[Y(t) 一 BY (OX (O)X (HF = 
0. 由 此 , 引入 如 下 辅助 随机 向 量 : 


Zi(B(t)) = 5 [Viz — BT (t)Xi(tiz)] X (tig) Kn (tay — t), (3.2.19) 
j=l 
其 中 , h EAR, Kal) = K(-/h) A K(-) 是 核 函 数 . 
注意 到 {2;(B(t));1 <i <n} 是 独立 的 且 El2;(B(t))] 二 0. 因此, 可 以 定义 
B(t) 的 一 个 自然 的 经 验 似 然 比 : 


R(B(UD) = -2max{ D1og(np) 
t=1 


mn>0> p: =1, nz(ao) =o}, 
i=1 i=] 


其 中 , pi = pi(t),i = 1, ,n. 对 于 一 个 给 定 的 BE, ROE) 的 单位 值 存在 , 假若 
0 在 点 (2Z1(B8(t)),… , Zn(B(t))) 的 凸 零 集 的 内 部 (Owen, 1988, 1990). 由 Lagrange 
RT, 可 以 把 R(B(t)) 表示 为 


R(B(t)) =2 > log(1+672i(B())， (3.2.20) 


i=l 


其 中 ,8 (k+1)x1 向 量 且 满 足 


= Zi(B(t 
> (B(t)) 


i=1 1+0°Z;(B(t)) ai (3.2.21) 


W D(B(t)) = (Nh)-! S 2,(A(t)) 27 (A(t). 使 用 式 (3.2.21) 和 Taylor Fest, 可 以 
证 明 i=l 
R(A(t)) = [A i z.(a(t)| ‘BD-1(8() [A ss 2.(()| + op(1). (3.2.22) 
" i=1 


i=l 
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因此 , 在 适当 的 条 件 下 R(E) EAE x? 的 . 
为 了 叙述 上 述 结果 , 首先 引入 一 些 记号 和 假定 . 假设 f 有 一 个 紧 支 撑 S(f). 对 
ME i=1,---,n,j=1,---,n, Ml,r=1,---,p, W% 


Yir(to) = 五 [Xi 人 (ti) Xir (tis) iti = tol, 
a? (to) = Elei(to)], pe(to) = lim Elei(to + 6)e1(to))- 


为 得 到 主要 结果 , 下 列 正则 条 件 是 必须 的 : 
(1) 对 某 个 ho > 0, MR h = hoN- 5; 


(2) 对 某 个 0 入 入 < ce， jim N- vn = = 


(3) 核 K(-) AAT ANAARE RRM a de da a, 


(4) 存在 常数 5 e (2/5, 2], 使 得 sup 已 [lei(ti)l2+6lt7 = t] < 00 A sup E[X4 (ti;)| 
tij = t] < 00, i=1,---,n, fj =1,--- ,nl= 1,.… ,7; 

(5) 对 任何 lr = 0,… ,p, y(t) 和 f(t) 在 点 to 有 连续 的 一 阶 导数 , 并 且 p(t) 
在 点 to 有 连续 的 二 阶 导数 ; 

(6) o? (t) 和 pelt) 在 点 to 连续 ; 

(T) T(to) = (mr(to)) 是 (P+ 1) x (p+ 1) MERHER. 

RR(B(to)) 的 渐 近 性 质 如 下 : 

定理 3.2.4 RH (2)~(7) 成 立 且 Nh 一 œ, Nh? 一 0. 如 果 B(to) 是 真 参 
数 , 则 R(B(to)) S Xy 其 中 ,X241 表示 自由 度 为 p 十 1 的 X2 KH. 

Ħ x2 (a) W Xy 的 1 一 a 分 位 数 , 0 < a <1. 使 用 定理 3.2.4 可 以 构造 8(t0) 
的 渐 近 置信 域 , 即 

0) = {B(to)|R(B(to)) < x241(a)}. 

由 RBE) ATR {-R(B(t))} 的 最 大 值 , 记 作 Bit), RA 8(t) 的 最 大 经 验 

似 然 估 计 (MELE). 由 式 (3.2.20) 和 式 (3.2.21) 可 以 证 明 估 计量 B(t) 是 估计 方程 


yz (B(t)) = 0 的 解 . 通过 解 该 估计 方程 可 以 得 到 B(t) = By x(t), 其 中 , rlt) 


是 由 Wu 等 (1998) 得 到 的 加 权 最 小 二 乘 估计 (WLSE), 见 式 (3.2.5). 这 说 明 MELE 
与 WLSE 是 等 价 的 . 换 名 话说. MELE 与 WLSE 有 相同 的 渐 近 分 布 . 因此 , MELE 
也 具有 定理 3.2.1 给 出 的 渐 近 正 态 性 . 

在 定理 3.2.4 中 , BR h 的 范围 在 区 间 (c/N-!1/2,coN-15) 内 部 , 其 中 , cl > 0 
和 cz > 0 是 某 常 数 . 因为 h 的 取 值 不 包括 最 优 窗 宽 , 因此 , 需要 用 欠 光 滑 消除 偏差 . 
然而 , 这 就 涉及 如 何 适 当 的 选择 窗 宽 . 为 了 避免 这 个 问题 , 提出 了 对 经 验 似 然 比 的 
一 种 改良 . 
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2. 残 差 调整 的 经 验 似 然 


对 经 验 似 然 比 的 一 个 有 效 的 修正 是 利用 它 自 身 的 渐 近 表达 来 实现 . 通过 对 自 
然 经 验 似 然 比 渐 近 性 质 的 推 证 发 现 , 对 加 权 残 差 Zi(B(t)) 进行 调整 将 有 助 于 减少 
偏差 . 为 此 , 引入 辅助 随机 向 量 


Zi(B(t)) = > {Yi — BT (t)X i(tiy) — (Bltiy) — BQ)” X: (lti) } Xi (Gig) Kn (tig — t). 
j=l 
显然 , Z;(B(t)) 是 式 (3.2.19) 中 2Z;(B(t)) 的 调整 . Bt) 的 一 个 残 差 调整 的 经 验 对 数 
似 然 比 定义 为 


RIBO) = -2max{ > og(npr)| ps > 0,9 pi = 1, neO)= 路 
t=1 t=1 i=1 


R(B(t)) 的 结果 陈述 在 下 列 定理 中 : 

定理 3.2.5 REY (1)~(7) 成 立 且 核 K(t) 在 点 to 处 是 二 次 可 微 的 ， 如果 
B(to) 是 真 参 数 , 则 R(B(to)) -二 x244. 

使 用 定理 3.2.5 可 以 构造 8(to) 的 渐 近 置信 域 , 即 


Ra(to) = {B(to)|R(B(to)) < xp+1(a)}. 


定理 3.2.4 和 定理 3.2.5 的 证 明 可 参见 文献 (Xue and Zhu, 2007). 同时 , Xue 和 
Zhu(2007) 也 构造 了 6B(t) 的 每 一 分 量 的 渐 近 逐 点 置信 区 间 和 共同 置信 带 . 


3.3” 变 系数 部 分 线性 模型 


3.3.1 ”模型 


WY EMNER, (U, X, Z) 是 联合 协 变量 , 那么 变 系数 部 分 线性 模型 具有 如 
下 形式 : 
Y =a"(U)X +8B"Z +e, (3.3.1) 


其 中 , a(-) = (ai() ,ap(-))? 是 未 知 函数 向 量 , 8 = (Fi1,… Bg)? 是 9 维 未 知 参 
数 向 量 , s 是 随机 误差 日 满足 E(e) = 0 和 Var(e) = o?. 由 于 维 数 灾祸 , 为 方便 起 见 ， 
假定 U 是 一 维 协 变量 . 模型 (3.3.1) 允许 U 与 X 之 间 以 某 种 方式 发 生 交互 作用 ， 
即 不 同 的 水 平 U 联系 不 同 的 线性 模型 . 这 就 允许 考察 协 变量 X 的 影响 在 不 同 的 
变量 U 的 水 平 上 的 变化 程度 . 

当 p=1 且 X= 1 时, 模型 (3.3.1) 变 成 部 分 线性 模型 , 该 模型 已 被 许多 学 者 
进行 了 广泛 的 研究 , 得 到 了 一 些 比较 理想 的 结果 . 
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$$ 


3.3.2 ”局 部 线性 估计 

1. 估计 方法 

有 许多 估计 未 知 参数 6 和 系数 函数 al) 的 方法 . 一 个 很 有 用 的 方法 是 Profile 
最 小 二 乘 方法 , 可 以 证 明 它 是 一 个 半 参 数 有 效 方法 . 当 e ~ N(0,07) 时 , 这 个 方法 
就 成 为 Profile 似 然 方法 . 

假设 样本 {(Ui, Xi, Zi, Yj 1 <i <n} 是 来 自 模型 (3.3.1) 的 iid 样本 , WA 


Y= aT (U;)X; + BZ; +e, i=1,---,n, (3.3.2) 


其 中 , Xi = (Xi , Xip)", Zi = (Zias s Zia)" 对 任何 B, 可 将 模型 (3.3.2) 写 
成 


了 
Yr =J ,af(U)Xj+te i=l,,n, (3.3.3) 
j=1 


其 中 , Y? = Yi- 》 BeZ 这 就 将 变 系数 部 分 线性 模型 (3.3.2) 转换 成 了 变 系数 模 


大 一 
型 (3.3.3) 下 面 利用 局 部 线性 回归 技术 来 估计 模型 (3.3.3) 中 的 系数 函数 {aj(J; = 
1,… ,p}. 对 于 给 定 的 点 uo, 在 uo 的 一 个 邻 域内 用 线性 函数 aj(u) ~% aj +b; (u— uo) 
HUDE w (.) 这 就 导致 下 列 局 部 加 权 最 小 二 乘 问 题 : 最 小 化 


2 
fwr =s > fo + b;(Ui 一 wit] K,(U; — uo) (3.3.4) 
i=l j=l 


来 求 {a;();j = 1,- P}, 其 中 ， Kr() =F K(-/h), K(-) 是 核 函 数 ， h= ha> 0 是 
窗 宽 序列 . 为 使 用 矩阵 记号 ， 记 y = (Yi, sin) Z = (Zie ZnT, Ww. og 
diag(Kn(Ui — u), =+- , Kn(Up — u)), 


XT XI(U—u) 
Du = : : : 
XT X7(U,-—1) 


由 最 小 二 乘 理论 可 求 得 问题 (3.3.4) 的 解 为 
a;(u) = ef2p( Di Wu Du) Du Wy — ZP), 


其 中 , ej.2p 是 2p x 1 单位 向 量 , 其 第 ; 个 分 量 是 1. 记 âl) = (âl) âl) T 用 
G(Ui) 代替 式 (3.3.2) 中 的 a(Ui) 可 得 


¥,=a4T(U)Xit+ B'Zite, i=1,.,n. 
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用 S 记 局 部 线性 回归 的 光滑 矩阵 , BI 


| [XT 0\(DE,Wu,Du,)' Do, Wu, | 
S 一 : 


ET Ol(DE, Wu, Du,) D, Wu, 


则 有 
(I -— S)Y = (I-S)ZB +e, (3.3.5) 


其 中 , e= (e1,… ,en)T. 将 线性 模型 的 最 小 二 乘 理论 应 用 到 式 (3.3.5) 可 得 
B = {Z0 - S)" (U ~ S)Z} 2.(I- S)" (I ~ 8)Y. 


2. 主要 结果 


下 述 定理 给 出 了 估计 量 A 的 渐 近 分 布 , 其 证 明 可 参见 文献 (Fan and Huang, 
2005): 

定理 3.3.1 设 下 列 条 件 成 立 : 

(1) 随机 变量 U 具有 有 界 支撑 U, 它 的 密度 函数 flu) 是 Lipschitz 连续 的 且 
inf f(u) > 0; 

(2) 对 每 个 u € U, HR E(XXT|U = u) 是 正定 的 且 E(XXTU = u) 和 
E(XX™|U =u)? 以 及 E(X ZU =u) AX Lipschitz 连续 的 ; 

(3) 存在 s > 0, 使 得 E||X||?° < 00, 如 22s < 00, FHAMBER€ < 2-871, 使 
得 n? lh 一 ow; 

(4) {a;(u); 7 =1,--- ,Pp} AU 上 有 连续 的 二 阶 导 数 ; 

(5) 核 K(-) 是 对 称 的 密度 函数 且 具 有 有 界 支撑 ; 

(6) nhë — 0, nh? / log? n > 00, 
则 valÊ - 8) 7+ NO, £), HP, 


X =0°{E(ZZT) — E[E(ZXT|U)E(X XTU) E(X ZT|U)]}}. 
考虑 p=1 且 X=1 的 情况 , 此 时 模型 (3.3.1) 为 部 分 线性 模型 , 那么 
E(ZZ") ~ E[E(Z|U)E(ZT|U)] = E{Var(Z|U)}, 


并 且 定 理 3.3.1 与 Carroll 等 (1998) 的 结果 一 致 . 事实 上 , 他 们 证 明了 D 是 半 参 数 
信息 界 . 该 结果 当然 也 适合 更 一 般 的 变 系 数 部 分 线性 模型 . 因此 , Profile 似 然 估计 
是 半 参 数 有 效 的 . 

Fan 和 Huang (2005) 对 参数 分 量 的 检验 问题 提出 了 Profile 似 然 比 检验 , 并 得 
到 了 所 提出 的 检验 统计 量 在 零 假 设 下 服从 x? 分 布 . Xia 等 (2004) 针对 模型 参数 
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提出 了 一 个 有 效 的 估计 , 建立 了 估计 量 的 渐 近 性 质 , 并 发 展 了 模型 选择 方法 . 关于 
变 系数 部 分 线性 模型 的 其 他 研究 工作 可 参见 文献 (Zhang, et al., 2002; Li 等 , 2002; 
Zhou and You, 2004; You and Zhou, 2006; Lam and Fan, 2007) 等 . 


3.3.3 “一般 序列 估计 


在 3.3.2 小 节 中 , Fan 和 Huang (2005) 使 用 核 Profile 似 然 方法 来 估计 变 系数 
部 分 线性 模型 中 的 兴趣 参数 ,并 证 明了 他 们 的 方法 在 同方 差 误差 情况 下 导致 了 6B 
的 有 效 估计 . 然而 , 当 误差 是 条 件 异 方差 时 , 要 使 用 核 方法 得 到 B 的 有 效 估计 有 更 
大 的 困难 . 序列 估计 作为 估计 未 知 条 件 均值 回归 函数 的 最 好 逼近 函数 有 好 的 定义 内 
涵 , 即使 模型 是 错误 指定 时 也 是 如 此 . 使 用 一 般 序 列 估计 所 付出 的 代价 是 : 要 在 最 
优 光 滑 ( 即 平衡 平方 偏差 和 方差 项 ) 下 建立 非 参数 分 量 估计 的 渐 近 正 态 性 是 困难 的 
因此 , 序列 方法 将 被 认为 是 弥补 变 系数 部 分 线性 模型 中 核 估 计 方 法 的 不 足 . 

1. 估计 方法 

下 面 利用 序列 估计 方法 来 估计 模型 (3.3.1) 中 的 参数 分 量 6 和 非 参数 分 量 a(.). 
假定 随机 误差 es; 满足 E(ei|Ui, Xia Z) = 0. 对 7 了 = 1,… ,p, H ky ERRAR 
性 组 合 g% (ual 逼近 变 系数 函数 aj(w), HP, gy (u) = (g (u) +++ ,9jkj(w))T 是 
kj x1 RRR, a! = (aji,… aje)" 是 有 x1 未知 参数 向 量 . 逼近 函数 g7 (u) 
有 如 下 特性 : 正 因为 ky 可 增 大 , 从 而 存在 gf? (u) 的 线性 组 合 可 很 好 地 逼近 任何 光 
滑 函数 a;(u), 其 逼近 的 均 方 误差 可 以 任意 小 . 

EN K x1 SBE g” (Ui, Xi) = (gf (Ui) Xa, -- 9p? (Ui)T Xip)! 和 a=(aiT,..., 

了 
ap )T, Hh, K = Xk; AMEA K 个 函数 g” (Ui, Xi) 的 线性 组 合 来 逼近 
J= 
al (U,)X;. 因此 , 可 将 式 (3.3.2) 重 写 为 
Y; =g" (Ui, Xi)"a + B” Zi + [aT (Ui) Xi — g” (Ui, Xi) a] + ei 
=g" (Ui, Xi)" + BY Z; + errori, (3.3.6) 


其 中 , 误差 的 定义 是 显然 的 . 
记 A= (al(U,)X1,--- „aT (Un) Xn)T, G= (g* (Ui, X1), UAD Xe 
YV = (Yi, Yn)", Z = (Zi, , Zn). 模型 (3.3.6) 可 用 和 矩阵 形式 写 为 


Y = Ga + ZB + error. (3.3.7) 


H â 和 户 分 别 记 式 (3.3.7) 中 由 y KF (G, Z) 的 回归 而 得 到 的 a 和 p 的 最 
小 二 乘 估计 . MBA, 可 以 用 a;(u) S gi? (uT (7 = 1,… ,p) 估计 ajlu). 


3.3” 变 系数 部 分 线性 模型 .79. 


下 面 导 出 & 和 BB 的 具体 表达 式 . A (3.3.2) 可 以 写成 如 下 和 矩阵 的 形式 : 
y=A+28+e, (3.3.8) 


其 中 , e = (ej,… en) 了 . WM = G(GIG)-GT, 其 中 , (97 表示 (-) 的 任何 对 称 广 
MU. 对 任 一 n x m 和 矩阵 B, 定义 B= MB, 那么 , HAM ERA (3.3.8) 两 边 可 得 


Y=At+ZB+E, (3.3.9) 
式 (3.3.8) 和 式 (3.3.9) 左右 两 边 分 别 相 减 可 得 
y-y=(Z-Z)B+(A-A)t+e-&, (3.3.10) 


把 式 (3.3.10) AR V -Ý KF (Z - Z) 的 线性 回归 , 并 由 最 小 二 乘 估计 法 也 可 得 
到 3, 即 


Ê =(Z-Z)"(Z- 2) (Z—-2Z)"(y-Y). (3.3.11) 
用 局 代 替 式 (3.3.7) 中 的 B, 并 由 最 小 二 乘 估计 法 可 得 到 â, 即 
= (GTG) GT (Y - ZA). (3.3.12) 


因此 , 可 得 到 a, (u) 的 估计 aj(u), 即 
Gj(u) =g} (u) Ta}, j=1,.,p. 
2. 主要 结果 


在 给 出 主要 结果 之 前 , 首先 给 出 一 个 定义 和 一 些 条 件 . 
定义 3.3.1 HG 是 一 个 函数 类 . 如 果 9 中 任 一 函数 glu) 满足 
P 


(1) 对 某 个 连续 函数 hj(u), g(u.x) = hT(w)z = 》 ajhj(u), KP, h(w) = 
j=1 
(hi(u),--+ ,hp(u)) Ts; 
(2) Do Ble Wi)] < 00, RP, Tj(Tij) 是 x(xj) 的 第 j 个 分 量 ， 


则 称 9 AGA 数 函 数 类 . 

对 任何 函数 f(w,z), 用 Eglf(u,x)| 表示 flux) 到 变 系数 函数 空间 9 的 投影 
(在 Lz 模 下 )， 也 就 是 说 ， Ec[f(wu,z)| 是 属于 9 的 元 素 且 它 的 所 有 元 素 中 最 靠近 
flu, x) 的 元 素 . 更 特别 地 ， 


E{(f(u, x) — Eg{f(u,x)})(f(u, x) — Eg[f(u, x)])"} 


p Pp E 
E een E | 区 xv) ay 2 st) (i x) = 2 smt) | ， (3.3.13) 
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p 
因此 , 对 所 有 g(wz) = X zjhj(u) € G, 
j=l 


E{(f(u, a) — Eg(f(u,x)])(f(u, £) — Eolf (u, x)])"} 


p p p 
<E | 区 x) 一 Santo) (re x) 一 Sato) | ， (3.3.14) 
j=l 


j=l 


其 中 , 对 平方 矩阵 AÑ B, A< BR RG A-B 是 非 负 半 正 定 的 . 

下 列 条 件 将 用 来 建立 B 的 渐 近 正 态 性 和 a(u) 的 收敛 速度 : 

条 件 1 (1) 样本 {(Ui, Xi, Za Yi); 1 <i <n} 是 独立 同 分 布 的 , 并 与 (U, X, Z, 
Y) 有 共同 分 布 且 (U, X, Z) 的 支撑 是 RtH 中 的 紧 子 集 ; 

(2) E(Z|U = u, X = æ) Al Var(Y|U = u, X = z, Z = z) MH (U, X, Z) 的 支 
撑 上 的 有 界 函 数 . 

条 件 2 (1) 对 每 个 K, 存在 非 奇异 矩阵 B, 使 得 对 GX (u,x) = Bg” (um)， 
E(G* (Ui, X:)G* (Ui, XT] 的 最 小 特征 值 在 K 上 一 致 有 界 且 大 于 零 ; 

(2) 存在 满足 fig |G* (u,x)|| < Co(K) 和 K = K 的 常数 序列 co(K), 使 得 
8(K)K/n 一 0 (n 一 ov), 其 中 , S 是 (U, X) 的 支撑 且 || All = [tr(A™A)]!/? RIE 
阵 4 的 Euclidean 模 . 


p 
条 件 3 (1) 对 f(u, x) = 》 zjhj(u), 存在 05 > 0 (j = 1,.… ;D) 和 af = 
j=1 
了 
> KT os aT p Y: : _ Gk u, T =O —$; 
afk = (a )T, 使 得 cm z) (u, x)" of| (2# ) 


(2) 对 min{k1, -+ ,kp)} 一 oo， a k; — 0 (n > oo). 
j=1 
条 件 1 是 使 用 在 序列 估计 方法 中 的 标准 假定 . 条 件 2 通常 蕴含 (U, X) 的 密度 
函数 的 下 确 界 大 于 一 个 正 的 常数 . 条 件 3 说 明 存 在 6; > 0 (7 = 1,--- ,Pp), 使 得 函数 
P 
一 致 逼近 的 速度 为 YO k”. 条 件 2 和 条 件 3 不 是 最 弱 的 , 但 有 许多 序列 函数 满足 


j=1 


这 两 个 条 件 , WERE. 

在 上 述 条 件 下 , 可 以 得 到 下 列 主要 定理 : 

定理 3.3.2 l e= Z- Eç(Z) BRK 8 = Eee’) 是 正定 的 , 则 在 条 件 1~ 
条 件 3 下 有 如 下 结论 : 

(1) Vi(B — B) > N(0, D5), 其 中 , X = S'S", N = Elo?(U, X, Z)eeT], 
o?(U, X, Z) = E(e?|U, X, Z); 
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(2) 5 的 相合 估计 是 =p AS", Hp, Fan SZ: E ATESA 
i 二 1 
=n X a(z: — Ž:)(Z: = Z;)', Ži 是 多 的 第 i 列 , &; 一 了 ;一 gr (Ui, Xi)G a 
i=l 
BZ. 
由 Chamberlain (1992) 的 结果 可 知 , 8 估计 的 渐 近 方差 的 逆 的 半 参 数 有 效 界 是 


Jo = inf E{(Z — g(U, X)|[Var(e|U, X, 2)] [Z ~ g(U, X)}*}. (3.3.15) 


在 误差 是 条 件 同方 差 下 , 也 即 Var(e|U, X,Z) =o? F, 式 (3.3.15) 可 重新 写成 
Jo= = inf E{[Z ~ g(U, XZ - g(U, X)}"} 
== inf E{[Z ~ Eo(Z)]|Z -~ Bo(Z))"} 
1 


， @ 
= ~3E(ee") = =: (3.3.16) 


注意 到 式 (3.3.16) HHS X = Pp 一 致 ,， 当 误差 是 条 件 同 方差 时 ，J5! ER 
VAB- B) 的 渐 近 方差 . 因此 , 5-1 = Jo 且 在 条 件 同 方差 误差 假定 下 , B 是 半 参 数 
有 效 估计 . 

下 面 的 定理 给 出 了 &;(w) 收敛 到 a;(u) 的 速度 . 

定理 3.3.3 Ae 1~ 条 件 3 下 ,对 了 = 1,…,p 有 


p 
E sup lau) -aol = Or (WK (VE/ Vm + oy"), ArU REU 的 
uEU 
RA; 
1. 2 Doce 
2) ED) -alo = Or (KIn+ Soy); 
j=l a 


了 
(3) /lal ~ asarz(s) = Or (xm >> | 其 中 ,Fz(z) 是 2 的 分 
FRR a 


定理 3.3.2 和 定理 3.3.3 的 证 明 可 参见 文献 (Ahmad, et al., 2005). 
3.4 上 自 适应 变 系数 线性 模型 


3.4.1 ”模型 
假设 对 估计 多 元 回归 函数 G(z) = E(Y|X = x) 感 兴趣 , 其 中 , Y 是 随机 变量 ， 
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及 是 px1 随机 向 量 . Fan 等 (2003) 提出 用 变 系 数 模型 


p 
g(x) = > 9;(B*x)x; (3.4.1) 
j=0 
逼近 回归 函数 G(x), 其 中 , 8 e R 是 未 知 方向 , æ = (x1,---, 2p), ro = 1, 系数 
gol) ,gp-1(.) 是 未 知 函数 . 选择 方向 B 和 系数 函数 gj(.), 使 得 EIG(X) 一 g(X)]? 
达到 最 小 .这 个 模型 的 魅力 是 一 旦 给 定 8, 人 们 就 可 以 用 标准 一 维 核 回 归 在 BT x 
周围 局 部 地 估计 g) 进而 , 可 容易 地 展示 系数 函数 9ji(.) 的 外 貌 , 这 对 观察 g(-) 的 
表面 如 何 变化 可 能 是 特别 有 用 的 . 当 指 标 Blo 给 定时 , 模型 (3.4.1) 在 z 的 每 一 纵 
坐标 出 现 线性 . 它 可 以 包括 二 次 和 交叉 乘积 项 (或 更 一 般 的 任何 给 定 的 zj 的 函数 ) 
作为 a 的 “新 ”分 量 . 因此 , 它 对 迎合 复杂 的 多 元 非 线性 结构 有 相当 大 的 适应 性 . 
不 失 一 般 性 , 在 模型 (3.4.1) 中 , 总 是 假定 |8| = 1, HA 8 的 第 一 个 非 零 分 量 
是 正 的 . 为 避免 因 指标 方向 B 无 唯一 性 而 引起 的 复杂 化 , 总 是 假定 G(.) 容许 9(.) 
的 唯一 的 最 小 二 乘 逼 近 , 即 g(-) 不 能 表达 为 形式 


g(z) =a aBta+y e+e, 
其 中 , a, y € R, ce R 是 常数 , a 与 B 不 相互 平行 (Fan, et al., 2003, 定理 1). 
3.4.2 ”估计 方法 
设 {(Xi, Y:); 1 < i < n} 是 严 平稳 过 程 , FAS (X,Y) 有 相同 分 布 , 并 设 B, £0. 
按照 文献 (Fan, et al., 2003) 中 定理 1 的 部 分 (b), 仅仅 按 
p—1 
g(x) = 》 gj(BTm)7 (3.4.2) 
j=0 
搜索 一 个 近似 值 . 下 面 的 任务 可 以 在 形式 上 分 为 两 部 分 : 一 是 就 给 定 的 B 来 估计 
函数 gl); 二 是 就 给 定 的 gji(.) 来 估计 指标 系数 B. 下 面 分 别 进 行 讨论 . 
1. 给 定 B 后 gil) 的 局 部 线性 估计 
对 给 定 的 BH Bp A 0, 需要 估计 
9(X) = arg min, E{[Y 一 7X)]IB 于 (3.4.3) 


其 中 ， 


p-1 
F(p) = {ve = > f)(B"2)25| fo) fo) 可 测 且 E[f*(X)] < -| 
j=0 
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Fast (3.4.3) 的 最 小 二 乘 性 质 导 致 估计 9;(z)=b;(j==0,…,p 一 1), 其 中 (bo,……, bp-1) 
是 下 列 加 权 二 乘 和 的 最 小 值 : 


™ 


2 
p-l 
y. fy 一 Ex Kn(BT X; — z)w(B™ Xi), 
i=1 j=0 
其 中 , w(.) 是 一 个 具有 有 界 支撑 的 有 界 权 函数 , 其 作用 是 用 来 控制 边界 效应 , Ki(-) = 
K(-/h), K(-) BBR, h 是 窗 宽 . 注意 到 这 里 仅仅 使 用 了 一 维 核 光 滑 . 

上 面 的 估计 方法 是 基于 局 部 常数 通 近 , 即 对 z 的 近邻 点 y, gly) = 9;(z). 因 
为 局 部 常数 回归 与 局 部 线性 回归 相 比 有 几 个 缺点 (Fan and Gijbes, 1996), 因此 , 考 
虑 函数 go(-),… ,gp 1(.) 的 局 部 线性 估计 . 这 就 导致 最 小 化 有 关 {b} 和 {ci} 的 加 
权 和 


2 
>, fy 一 Sh, + ¢;(B" Xi — anxu} Kp(B" Xi ~ z)w(B" Xi), (3.4.4) 
定义 89;(z) = bj, 9(z) = ĉj, 7 二 0,…,p 一 1 Bid 
6 = (bo, -+ ,Êp-1; ĉo, ++- ,ep-1)T. 
由 最 小 理论 可 推出 
Ô = [X(z)W(z)X(z)} X (z)W(z)¥, (3.4.5) 
SEP, Y= (Yi, , Yn), Wz) 是 nxn IRERE, SO i PATER KTX- 


z)w(BTXi),， X(z) 是 n x 2p 矩阵 , 其 第 i 行 元 素 为 (Ui, (BTX 一 2)UẸF), Ui = 
(1, Xil) s Xip-1)7. 


2. g() 国定 后 搜寻 BHAH 
Fan 等 (2003) 提出 用 最 小 化 


2 
n p—1 
R(B) = D fr 一 Eon,| w(BT X;) (3.4.6) 
i=1 j=0 
搜寻 B 的 方向 . 用 一 步 Newton-Raphson 估计 的 思想 , 可 以 用 一 步 估 计 方 案 来 估计 
B. 如 果 初 始 值 相当 好 , 人 们 当然 希望 得 到 好 的 估计 . 

假设 B 是 方程 (3.4.6) 的 最 小 值 , 那么 RÔ) = 0, 其 中 , RO 表示 RO 的 导数 . 
对 任何 接近 B 的 点 BO, 有 下 面 近似 表达 式 : 


0= R(B) = RBY) + R(B)(6 — B), 
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其 中 , RCO)  R(-) 的 Hessian HF. 这 就 导致 了 一 步 迭 代 估计 
B® =p — RB) RB), (3.4.7) 


其 中 , pO 是 初始 值 . 利用 第 一 个 正 的 非 零 元 素 重 新 调节 B4), 使 其 具有 单位 模 . 由 
方程 (3.4.6) 容易 导出 


n p-1 了 一 1 
R(B) = -Z >, fy 一 》 9j ox | (Sues Xiw(8" Xi), 


i=1 j=0 j=0 


2 
2 一 
| aorxom | X;,X}w(8" Xi) 
=0 


j 


OEDD 


i=1 


2 n p—1 
“n 2 fy i Foor xxs| 
-1 
e 45 rx | X,X}w(A" Xi). (3.4.8) 
j=0 
为 方便 起 见 , 在 推导 过 程 中 , 假定 权 函 数 w) 的 导数 为 0. 实际 上 , 通常 将 w(-) 取 
为 示 性 函数 . 
在 矩阵 为 奇异 或 接近 奇异 的 情况 下 , 利用 如 下 上 岭 回 归 方 法 : 在 式 (3.4.8) 右边 
用 X;XT+qnTn 代替 XXT 而 得 到 R, RA R. 代替 式 (3.4.7) 中 的 R, 其 中 ， 
gn 是 某 个 正 的 岭 参数 . 另外 , 可 以 用 广义 交错 验证 方法 选择 窗 宽 , 参见 文献 (Fan, 
et al., 2003), 这 里 不 再 袭 述 . 
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值得 指出 的 是 : Xia 和 Li (1999) 研究 了 比 模型 (3.4.1) 更 一 般 的 单 指标 系数 回 
归 模 型 , 他 们 提出 了 一 个 估计 方法 来 估计 兴趣 参数 , 并 证 明了 相应 估计 量 的 相合 性 
和 渐 近 正 态 性 . Lu 等 (2007) 也 研究 了 模型 (3.4.1), 他 们 用 严 平 稳 8 过 程 的 经 验 
过 程 理 论 得 到 了 所 给 估计 量 的 渐 近 性 质 . Scheike 和 Martinussen (2004) 将 变 系 数 
的 思想 推广 到 Cox 比例 风险 模型 , 他 们 提出 了 一 个 新 的 检验 来 研究 协 变量 是 否 随 
时 间 的 变化 而 变化 . Wong (2008) 提出 了 一 个 单 指标 变 系数 模型 , 构造 了 参数 分 
量 和 非 参数 分 量 的 估计 , 并 给 出 了 估计 量 的 渐 近 分 布 . Zhang (2004) 和 Guo (2004) 
把 变 系数 模型 推广 到 具有 混合 效应 的 情况 , 给 出 了 该 类 模型 的 实际 应 用 , 限于 篇 幅 ， 
这 里 不 再 详 述 . 
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现 有 文献 对 变 系数 模型 的 研究 大 都 集中 在 独立 数据 和 纵向 数据 方面 , 然而 变 系 
数 模型 在 一 些 复杂 数据 下 的 研究 结果 还 很 少见 , 这 些 复杂 数据 包括 缺失 数据 、 删 失 
数据 、 测 量 误差 数据 和 时 间 序 列 数据 等 . 因此 , 在 这 些 复杂 数据 下 , 对 变 系数 模型 
和 半 参 数 变 系数 模型 进行 研究 是 一 个 很 有 兴趣 的 研究 课题 . 
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第 4 章 ”纵向 数据 模型 的 稳健 推断 


在 回归 分 析 中 , 通常 研究 的 截面 数据 是 通过 对 一 系列 不 同 的 个 体 仅仅 在 一 个 
时 间 点 上 观察 得 到 的 数据 ， 与 截面 数据 对 应 的 纵向 数据 是 由 对 一 系列 不 同 的 个 体 
在 不 同时 间 点 上 重复 观察 得 到 的 数据 ,社会 学 家 和 经 济 学 家 经 常 把 这 类 数据 称 为 
面板 数据 . 由 于 这 类 数据 大 量 产生 于 生物 医药 、 临 床 实验 、 社 会 经 济 等 领域 , 对 这 
类 数据 的 统计 分 析 的 研究 已 经 引起 了 许多 统计 学 家 和 应 用 研究 工作 者 的 广泛 兴趣 . 
本 章 结合 纵向 数据 统计 分 析 的 基本 原理 给 大 家 介绍 我 们 最 近 的 一 些 研究 成 果 , 同时 
给 大 家 介绍 在 这 一 领域 的 热点 问题 . 


4.1 引 B 
4.1.1 ”数据 结构 的 特征 
设 yij 为 第 i (i = 1,… ,m) 个 个 体 的 第 GG = 1,… ,mi) 次 观察 . 如 果 个 体内 
部 的 观察 次 数 相同 , 即 ny = ng = … = nm = n, 这 个 数据 集 称 为 平衡 的 纵向 数据 ; 


RZ, 称 为 非 平 衡 数 据 . 表 4.1 表示 一 个 平衡 的 纵向 数据 集 . 
表 4.1 m 个 个 体 , 每 个 个 体 n 次 观察 的 平衡 数据 表 


ER 4.1 中 , 用 矩阵 表示 了 mm 个 个 体 , 每 个 个 体 有 n 次 观察 . 行 表示 个 体内 部 
的 观察 , 第 i ITAR Y, = (ya,… yin)”, 列表 示 在 时 刻 点 上 不 同 个 体 的 观察 . 

纵向 数据 的 个 体 在 不 同时 间 点 上 重复 观察 的 独特 结构 , 使 得 人 们 能 够 直接 研究 
个 体 的 动态 变化 ， 由 于 截面 数据 是 对 一 系列 不 同 的 个 体 仅仅 在 一 个 时 间 点 上 观察 , 
这 类 数据 的 统计 分 析 不 能 研究 个 体 的 动态 变化 . 这 是 两 类 数据 最 根本 的 差异 . 纵向 
数据 统计 分 析 的 主要 目的 有 以 下 几 个 : @ 描述 个 体内 部 响应 变量 随 着 时 间 变 化 而 
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变化 的 规律 ; O 确定 响应 变量 与 其 他 协 变量 之 间 的 关系 ; @ 研究 个 体 之 间 的 差异 . 
这 些 统计 分 析 的 目的 有 别 于 截面 数据 和 时 间 序 列 数据 的 统计 分 析 , 只 能 通过 纵向 数 
据 的 统计 分 析 得 到 . 

因为 同一 个 个 体 在 不 同时 间 点 上 的 重复 观察 , 个 体内 部 的 数据 趋向 于 相关 . 这 
个 相关 性 类 似 于 时 间 系 列 数 据 . 同时 , 对 不 同 个 体 之 间 的 观察 , 通常 假定 是 独立 的 ， 
这 一 性 质 又 类 似 于 截面 数据 . 对 应 表 4.1, 行 之 间 是 独立 的 , 列 之 间 是 相关 的 . 纵向 
数据 的 结构 综合 了 截面 数据 和 时 间 序 列 数据 的 特点 . 这 类 数据 中 含有 丰富 的 信息 ， 
同时 也 给 分 析 这 类 数据 带 来 了 复杂 和 困难 . 

分 析 纵 向 数据 的 复杂 和 困难 来 自 于 个 体内 部 观察 数据 的 相关 性 ， 为 了 进行 正 
确 的 统计 推断 , 必须 说 明 个 体内 部 的 相关 性 . 这 个 相关 性 使 得 纵向 数据 分 析 方 法 有 
别 于 截面 数据 和 时 间 序 列 数据 分 析 方 法 , 需要 特别 的 统计 方 分 析 法 . 纵向 数据 的 内 
部 相关 性 来 源 于 以 下 三 个 方面 : 

纵向 数据 内 部 相关 性 的 第 一 个 来 源 是 个 体 之 闻 的 非 齐 次 性 , 这 个 非 齐 次 性 反 
映 了 个 体 倾 向 的 波动 . 在 任何 纵向 数据 中 都 有 一 部 分 个 体 的 观察 值 一 致 高 于 平均 ， 
另 一 部 分 一 致 低 于 平均 . 为 了 刻画 这 个 非 齐 次 性 , 通常 引入 随机 效应 或 统计 模型 的 
回归 系数 假定 是 随机 的 . 相关 性 的 男 一 个 来 源 是 个 体内 部 的 波动 , 这 些 波 动 主要 来 
源 于 个 体内 部 固有 的 随 着 时 间 变 化 而 变化 的 波动 . 相关 性 的 最 后 一 个 来 源 是 测量 

下 面 通 过 几 个 例子 来 说 明 纵 向 数据 分 析 的 一 些 问题 . 
4.1.2 ”两 个 例子 


在 这 里 , 首先 介绍 两 个 数据 集合 . 在 本 章 中 , 将 要 反复 使 用 这 两 个 数据 集合 去 
说 明 所 提出 的 分 析 方 法 的 有 效 性 和 可 行 性 . 一 个 例子 中 因 变 量 是 连续 变量 , 另 一 个 
例子 中 因 变 量 是 离散 变量 . 下 面 首先 介绍 连续 因 变量 的 例子 . 

例 4.1.1 荷尔蒙 数据 ”在 一 个 关于 黄体 酮 的 纵向 荷尔蒙 研究 中 , 34 个 健康 
妇女 一 个 月 经 周期 内 在 不 同时 间 点 的 尿 样 被 收集 , 共有 492 个 观察 值 . 每 个 妇女 尿 
中 的 黄体 酮 分 别 被 测量 . 研究 者 主要 感 兴趣 的 是 黄体 酮 在 月 经 周期 内 的 变化 规律 
及 妇女 的 年 龄 和 体重 如 何 影响 这 个 变化 及 不 同 妇女 之 闻 的 差异 . 数据 集 的 多 重 时 间 
序列 图 如 图 4.1 所 示 . 

4.1 显示 了 不 同 的 妇女 在 不 同 的 时 间 点 有 不 同 的 黄体 酮 水 平 , 并 且 在 总 体 平 
均 意义 下 , 黄体 酮 的 水 平 与 月 经 周期 内 的 时 间 呈 非 线 性 关系 . Zhang 等 (1998) 对 该 
数据 集 建立 了 半 参 数 混合 效应 模型 ， 并 采用 最 大 惩罚 似 然 的 方法 分 析 了 该 数据 集 . 
Fung 等 (2002) 也 分 析 了 该 数据 , 发 现 第 10, 405, 445 个 观察 值 是 影响 点 . 特别 地 ， 
他 们 指出 第 10 个 观察 值 是 明显 的 异常 点 . 在 本 章 中 , 利用 稳健 统计 推断 方法 再 一 
次 分 析 这 个 数据 集 . 
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图 4.1 荷尔蒙 数据 的 多 重 时 间 序 列 图 


在 下 面 的 例子 中 , 响应 变量 是 二 元 变量 , 即 是 离散 变量 . 离散 变量 的 纵向 数据 
模型 是 在 医学 研究 中 非常 常用 的 一 类 模型 . 

例 4.1.2 GUIDE 数据 ”为 了 研究 老年 人 小 便 滩 漏 对 生活 影响 的 问题 , 共 
有 来 自 38 个 医疗 中 心 的 137 位 年 龄 在 76 岁 以 上 的 老年 病人 被 调查 是 否 受 到 小 
便 滩 漏 的 困扰 .每 个 医疗 中 心 用 不 同 的 医疗 方法 对 老年 人 的 小 便 渗 漏 问 题 进行 治 
疗 . 响应 变量 是 一 个 取 值 为 0, 1 的 随机 变量 . 如 果 来 自 第 i 个 医疗 中 心 的 第 7 个 
病人 受到 这 个 问题 的 困扰 , 则 响应 变量 y;; 取 值 为 1, 否则 为 0. 对 这 个 数据 集 分 析 
的 主要 目的 如 下 : @ 研究 一 些 协 变量 X, 如 性 别 、 年 龄 等 , 对 响应 变量 y 的 影响 ; 
@ 研究 各 个 医疗 中 心 之 间 是 否 有 差异 . Preisser 和 Qagish(1999) 分 析 了 该 组 数据 ， 
并 建立 了 logistic 混合 效应 模型 分 析 该 数据 , 包括 5 个 协 变量 , 分 别 为 标准 化 的 年 
龄 (AGE). 性 别 (GENDER)(1= 女性 )、 每 天 渗 漏 的 次 数 (DAYACC)、 渗 漏 的 严重 
程度 (SEVERE)( 按 严重 程度 分 为 4 个 程度 : 1 表示 程度 最 轻 , 4 表示 最 严重 ) 以 及 
每 天 通常 去 厕所 的 次 数 (TOILET). 标准 化 的 年 龄 指 (实际 年 龄 (年 ) -76)/10. Ñ 
过 分 析 , 他 们 指出 可 能 的 影响 点 包括 第 7, 10, 27, 56, 59, 97 和 131 个 病人 . 特别 地 ， 
第 97 个 病人 是 一 个 极端 点 . 在 本 章 中 , 用 新 的 稳健 的 广义 部 分 线性 混合 效应 模型 
和 稳健 似 然 方法 分 别 对 这 个 数据 集 进行 了 分 析 , 得 到 了 一 些 比较 合理 的 结果 . 


4.1.3 ”模型 介绍 


为 介绍 纵向 数据 模型 , 首先 引入 一 些 记号 . 对 第 i 个 个 体 , 第 j 次 观察 , yi; 表 
示 响 应 变量 , zi 表示 p 维 协 变量 . 响应 变量 yij 的 均值 和 方差 分 别 表示 为 Ely) = 
Hij 和 Var(yi;) = Vij. 对 Ni 维 向 量 Y; 同样 有 均值 EY; = Hi 和 协 方差 阵 为 
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Var(Y;) = Vi, 并 且 用 Ri 表示 Y. 的 相关 系数 矩阵 . 

当 在 试验 单元 中 仅 有 一 次 观察 时 , 仅 能 对 响应 变量 Y 的 被 称 为 边际 均值 的 总 
体 平均 建立 模型 . 当 有 重复 观察 时 , 可 以 有 几 个 方法 被 用 来 建 模 . 

当主 要 关心 的 是 响应 变量 与 协 变量 的 总 体 效 应 时 , 如 在 荷尔蒙 数据 中 , 主要 感 
兴趣 的 是 妇女 黄体 酮 水 平 在 月 经 周期 内 的 变化 规律 , 而 妇女 的 个 体 差 异 作为 其 次 ， 
那么 可 以 像 截面 数据 分 析 那 样 建立 边际 模型 ， 例 如, 线性 模型 p(Y;) = XiB 及 
Var(Y;) = Vi(a), 其 中 , 8 和 a 需要 利用 数据 去 估计 . 边际 模型 有 一 个 很 重要 的 优 
点 , 即 分 别 对 均值 和 方差 进行 了 建 模 . 只 要 均值 模型 假定 正确 , 无 论 方差 模型 假定 
ETEM, 总 能 获得 均值 部 分 的 相合 估计 . 

第 二 个 建 模 方法 是 随机 效应 模型 ， 假定 个 体内 部 的 相关 性 来 自 于 不 同 个 体 之 
间 的 差异 , 即 回归 系数 是 随机 的 . 可 以 建立 如 下 模型 : 


E(yij|Bi) = 158i- (4.1.1) 


通常 , 个 体内 部 的 重复 观察 次 数 不 是 很 多 , 可 进一步 假定 b, 是 具有 均值 为 8 的 随 
机 变量 , WA p, = 6+Ui 其 中 , B 固定 未 知 , U; 是 期 望 为 0 的 随机 变量 , 并 且 称 为 
潜 变 量 或 随机 效应 . 可 以 看 到 U: 是 在 个 体内 部 不 变 , 个 体 之 间 变 化 的 , 所 以 随机 效 
应 一 方面 刻画 了 个 体内 部 的 相关 性 , 另 一 方面 刻画 了 个 体 之 间 的 差异 . 在 GUIDE 
数据 中 主要 研究 医疗 中 心 的 差异 , 而 其 他 影响 老人 生活 的 因素 及 作为 第 二 感 兴趣 
的 . 在 分 析 这 类 数据 时 , 随机 效应 模型 非常 有 用 . 

第 三 个 建 模 方法 是 转移 模型 . 转移 模型 就 是 在 Wii Vi 一 ! 和 Tij 条 件 下 ， 对 
Wij 建立 模型 , 即 对 (yij|yii,… ,Yij-1, Lij) 建 模 . 这 类 模型 类 似 于 自 回 归 模 型 , 但 
是 要 比 自 回归 复杂 .关于 y; 是 连续 性 响应 变量 的 转移 模型 的 研究 有 比较 丰富 的 
文献 , 但 是 对 y;; 是 离散 响应 变量 , 如 计数 、 分 类 数据 等 的 转移 模型 是 目前 的 热点 
问题 . 


4.1.4 进一步 阅读 


有 关 纵 向 数据 分 析 的 文献 非常 丰富 . 如 果 对 纵向 数据 分 析 在 生物 、 医 药 领域 中 
的 应 用 感 兴趣 , 读者 可 以 参见 文献 (Diggle, et al., 2002; Fitzmaurice, et al., 2004). 
有 关 纵 向 数据 的 混合 模型 和 非 参 数 、 半 参数 模型 的 理论 和 应 用 的 内 容 , 可 以 参见 文 
献 (Wu and Zhang, 2006). 如 果 对 社会 、 经 济 等 领域 的 纵向 数据 分 析 比 较 感 兴趣 ， 
读者 可 以 参见 文献 (Frees, 2004). 有 关 纵 向 数据 分 析 的 最 新 研究 成 果 的 介绍 可 以 参 
见 文献 (Fitzmaurice, et al., 2008), 这 本 论文 集 是 收集 了 国际 上 一 些 最 有 名 的 纵向 
数据 分 析 专 家 的 论文 , 这 些 论 文 对 各 个 专题 进行 了 总 结 和 前 景 预测 , 是 这 个 方向 的 
一 本 最 新 、 最 权威 的 书 . 
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4.2 边际 模型 


4.2.1 ”部 分 线性 模型 的 稳健 推断 
1. 模型 
在 这 一 节 中 , 首先 研究 边际 部 分 线性 模型 的 M 估计 . 具体 讨论 这 样 的 数据 集 


{ (Yi;, Tijs tiz)|9 = 1; eee Ni, i = Ls 3 m}. 
该 数据 集 共 有 m 个 个 体 , 第 i 个 个 体 有 ni 个 观察 , 共有 n = ni 个 观察 , ys; 和 
zij E RP 分 别 为 在 时 间 点 i; 的 响应 变量 和 协 变 量 . 可 以 建立 如 下 模型 : 


Yij = xip + f (tij) + eij, (4.2.1) 


其 中 , 8 是 未 知 的 回归 系数 ,f(-) 是 定义 在 [0,1] 的 未 知 光 滑 函 数 , ei; 是 随机 误差 . 
在 这 一 节 中 , 进一步 假定 不 同 个 体 之 间 的 ei; 是 独立 的 , 个 体内 部 相关 , 但 是 不 假定 
具体 的 相关 结构 . 当 ni = 1(i = 1,… ,m) 时 , 这 个 模型 就 是 熟悉 并 得 到 广泛 研究 
的 部 分 线性 模型 . 有 关 这 个 模型 的 研究 可 以 参见 文献 (Hädler, et al., 2002). 

模型 (4.2.1) 最 早 由 Zeger 和 Diggle(1994) 在 研究 HIV 缺乏 症 时 提出 , 随后 许 
多 研究 者 对 这 个 模型 进行 了 研究 , Zeger 和 Diggle(1994) 利用 核 与 最 小 二 乘 方法 , 提 
出 了 参数 和 非 参 数 的 统计 推断 方法 ; Zhang 等 (1998) 利用 光滑 样 条 和 最 大 似 然 方 
法 , 提出 了 估计 和 检验 的 方法 . 众所周知 , 基于 最 小 二 乘 和 最 大 似 然 的 估计 和 推断 
方法 对 数据 中 的 异常 点 非常 敏感 . 本 节 主 要 介绍 当 误 差 的 分 布 和 协 方差 结构 没有 
具体 的 形式 时 , 有 关 半 参数 模型 (2.1) 的 M 估计 . 

在 BER 和 f(-) 在 回归 样 条 空间 中 , 求 如 下 目标 函数 的 最 小 值 : 


SY plys — 238 — f(tis)), (4.2.2) 
i=l j=l 
其 中 , p(.) 是 一 个 损失 函数 , 选取 在 p(0) = 0 达到 最 小 的 凸 函数 .不 像 一 般 的 估计 
方程 方法 , 我 们 的 方法 避免 了 估计 方程 有 多 重 根 的 问题 , 同时 不 假设 特别 的 协 方差 
结构 . 把 最 小 值 Ô, f(t) 作为 B 和 f(-) 的 M 估计 . 
2. 估计 方法 
首先 , 用 回归 样 条 逼近 函数 /(.), 然后 , 用 M 估计 方法 估计 样 条 系数 和 线性 回 
归 系 数 . 由 于 假定 数据 的 个 体 之 间 “ 工 作 独 立 ”, 计算 方法 像 普通 M 估计 方法 一 样 
非常 简单 
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一 个 样 条 是 分 段 多 项 式 , 并 且 在 节点 处 是 光滑 连接 . + to =0< ti <- <te < 
1 = they. 是 区 间 (0, 1) 的 个 不 同 的 划分 点 . 使 用 这 些 点 作为 节点 ,用 N = kl 个 
正则 化 的 阶 数 为 ! 的 B 样 条 函数 作为 基 函 数 , 形成 了 线性 样 条 空间 Sl. B 样 条 基 
函数 有 如 下 形式 : 


Bi(z) = (ti — tii)lti-z ,tt — r), i=1,.… ,k+l, (4.2.3) 


其 中 , [ti,--- tipo 表示 在 1+1 个 点 ti ti 的 函数 o 的 1 阶 差分 , 对 任何 
i 二 1 一 1 ,p, ti = tmin(max(io),e+1) 及 (a)+ =al(x > 0), I) 表示 示 性 函数 . 把 这 
些 基 函数 表示 为 一 个 向 量 r(z) = (Bi(7x),:… ,BN(z))7(N =k +1). 

作为 光滑 函数 的 逼近 方法 , B 样 条 有 两 个 所 期 望 的 性 质 : B 样 条 基 函 数 有 局 部 
支撑 , 所 以 样 条 逼近 有 很 好 的 局 部 性 质 ; 更 加 重要 的 是 这 个 方法 经 常 能 用 比较 少 的 
节点 数 提供 非常 好 的 有 逼近 . 结合 B 样 条 计算 的 有 效 性 和 稳定 性 , 这 些 因 素 使 得 这 个 
逼近 方法 是 相当 好 的 一 种 光滑 逼近 方法 . 当然 还 有 一 些 其 他 的 光滑 方法 , 如 核 、 光 
滑 样 条 和 小 波 级 数 等 光滑 方法 . 在 本 章 中 , 主要 研究 回归 样 条 , 即 B 样 条 方法 . 

函数 f(x) 可 用 样 条 逼近 为 f(z) = r(z)Ta HRE a, 那么 线性 化 的 回归 模型 
可 表示 为 

~ (wit, T (tij) )O + eij, (4.2.4) 

其 中 , 0 = (87, aT) 是 参数 向 量 . 那么 , 考虑 通过 最 小 化 


ba Sai — 2}, — (tj) a) (4.2.5) 
i=l j=1 
得 到 9 的 估计 . 车 函数 p(-) 除去 有 限 个 点 以 外 是 可 微 的 且 令 导数 为 y(7) = p'(r), 
则 式 (4.2.5) 的 解 满足 如 下 方程 : 


Sy vase di. jOn)d ij © 0, (4.2.6) 


i=1 j=l 
其 中 , dij = (wh, w(tis)™)*. 如 果 pC) 处 处 可 微 , 则 可 以 利用 Newton-Raphson 方法 
获得 式 (4.2.6) 的 解 . 
在 这 里 , 选用 1 = 3, 即 利用 立方 样 条 逼近 函数 f(-). 如 果 函 数 f(-) 少 光滑 , 那 
么 也 可 以 选择 线性 或 二 阶 样 条 逼近 . 同时 , 用 样本 {tij} 的 分 位 数 作为 节点 的 位 置 . 
关于 节点 数 , 用 如 下 的 BIC 准则 选取 : 


BIC(N) = on 3 Set d; oo} LERN +p), (427) 


i=l j=1 


其 中 , Oy 是 通过 式 (4.2.6) 获得 的 M 估计 . 准则 (4.2.7) 类 似 于 Bayesian 信息 准则 . 
大 的 BIC 表示 拟 合 比 较 差 , 则 选取 N, 使 BIC 比较 小 . 下 面 给 出 估计 的 渐 近 性 质 . 
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3. 估计 的 渐 近 性 质 

为 建立 渐 近 性 质 , 首先 给 出 一 些 证 明 渐 近 结 果 所 需要 的 假定 条 件 . 首先 , 令 ei = 
(ea Cin)! 和 lex) = (Ylen), ,YW(eini)) T. 对 任何 矩阵 A, || Al| 表示 欧 氏 
范 数 . 

条 件 (A.1) {ni} 是 有 界 正 整数 序列 , 样本 ty 中 可 区 分 值 为 [0,1] 上 的 拟 
均匀 序列 , 即 假 定 max [qi+1 — qil = ol(ka!1), 并 且 max, qi/ min, qi S M, 其 中 ， 


= (si— si1), M > o. s1 < 82 < -+ < Sh, Si 表示 {to} 的 第 i ; 个 可 区 分 节点 
条 件 (A.2) ”对 任何 7 > 2, fC) ) 具 有 7 阶 有 界 导数 . 
条 件 (A.3) pU) 是 是 函数 且 对 任何 i> 1 有 BEw(ei) = 0. 进一步 , 存在 6 > 0 
有 sup Ellw (ed) < oo 及 
Ep(e:)p" (ei) = Qi > 0 (4.2.8) 
H. ||Qi|| < 00. 
条 件 (A.4) 存在 正 数 {bi;} Ao< inf bij < sup bj; < Ow, 使 得 
sup | 已 V(ei + s) — bijs| = O(s?), s 一 0. (4.2.9) 
条 件 (A.5) ”存在 常数 0 < c,C < 00, 使 得 
sup E{w(eij+s)— pley) <0, s—0 (4.2.10) 
tJ 
和 对 任何 |s| <c RvER FA lyu + s) — W(v)| <C. 
上 述 条 件 是 有 关 M 估计 和 非 参数 函数 为 得 到 基本 的 渐 近 性 质 所 需要 的 非常 一 


般 的 假设 . 另外 , 一 个 对 半 参 数 模型 复杂 的 问题 是 变量 xz;; 和 ti; 的 相关 . 为 刻画 这 
个 相关 性 , 假定 这 两 个 变量 之 间 有 如 下 关系 : 


Tijk = gk (ti;) +6ijk, Letgml<ejgcn,l<ck¢p, (4.2.11) 


其 中 , 函数 gl) 具有 r 阶 有 界 导数 , 6zik 是 相互 独立 且 具 有 期 望 为 0, 并 与 ei 独立 
的 随机 变量 . 令 An 是 nxp ERE, 它 的 第 5 列 为 ôs = (011s, “请 lnis 3 TAGE 
和 


Br = diag(b11, ree § bin; cons: > Dinvics.)s Q, = diag(@1, ° OR 
进一步 , & 


= (rta)y ,Ttin))I，WM= (r7, ,nt)', H? =NM"™B,M. 
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下 面 给 出 另外 几 个 在 证 明 参 数 估计 的 渐 近 正 态 性 时 所 需要 的 假定 . 

条 件 (A.6) (1) EAn = 0, 并 且 sup ~ E||Anll? < 00; 

(2) 7 ATQ,, An bS , AT By An 2K, 3h, K 和 5 为 正定 矩阵 . 

条 件 (A.7) ”对 充分 大 的 n, 矩阵 H, 非 奇 异 且 nH? 的 特征 值 大 于 0 小 
于 无 穷 大 . 

由 条 件 (A.1), 样本 量 n 与 个 体 数 m 同 阶 , 样本 的 个 体 中 只 存在 局 部 的 相关 
性 . 同时 , 对 非 参数 函数 fo 的 光滑 条 件 的 假定 决定 了 样 条 估计 fu = w(t)T& 的 收 
DORRE. 条 件 (A.2) 保证 了 利用 {ti;;} 的 分 位 数 序 列 作 为 样 条 节点 序列 是 一 个 拟 均 
义 的 序列 . 为 了 获得 估计 By, 的 渐 近 正 态 性 , 类 似 于 文献 (He, et al., 2005), BER 
(4.2.11). 类 似 的 假定 已 经 被 He 等 (2002) 以 及 其 他 学 者 使 用 . 

要 实现 估计 的 渐 近 性 质 , 可 区 分 节点 数 大 需要 随 着 样本 量 ”的 增加 而 增加 . 另 
一 方面 , 过 多 的 节点 也 会 导致 估计 的 方差 增加 , 因此 , 节点 数 需要 合适 的 选择 , 在 估 
计 的 偏差 和 方差 之 间作 平衡 . 这 里 考虑 到 最 优 收敛 速度 , 选择 kn w nt/27+1). 

在 上 述 条 件 下 , 得 到 了 M 估计 Bm 和 ful) 的 渐 近 性 质 , 表示 为 如 下 的 两 个 
定理 : 

定理 4.2.1 假定 条 件 (AL) ~ 条 件 (A.7) 成 立 . 如 果 节 点 数 kn x n/H), 


则 
- E ofa (tis) — foltiz))? = Opn? +), (4.2.12) 
i=l j=1 
并 且 
Vn(Bm — Bo) ++ N(0, V 6), (4.2.13) 


AP, Veg = KSK, #4 K fo S 的 定义 见 条 件 (A.6), > 表示 依 分 布 收敛. 
由 定理 4.2.1 可 知 在 相当 一 般 的 条 件 下 (如 文献 (Stone, 1985, 引 理 8 和 引 理 


9), 结论 (4.2.12) 说 明 fino — fo(t))*dt = Op(n7?/ C+D), 在 假定 (A.1) F, 这 


是 估计 fm 所 能 达到 的 最 优 收敛 速度 . Am 的 渐 近 正 态 性 可 以 用 于 有 关 回 归 参 数 6o 
的 统计 推断 , 如 构造 fo 的 置信 区 间 和 进行 假设 检验 . 为 此 , 需要 估计 By 的 协 方 
差 阵 Vg. 因此 , $ X = (zl ,zi Emam)” 和 


Ê=M(MTÊ,M) M" Èn X* =(1-P)X = (XD 


m 
A oT. oT PE + a eT 
Sn = > Š; P(Ei)p T (ê:) X; ， Kn = X; diag(p(é:)X; , (4.2.14) 


i=1 
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其 中 , êi = (êi, im), big = Yij 一 «ip = wm" (ti; )&, w(-) 是 函数 YO 的 导数 
(如 果 它 存在 ); 否则 , 对 某 些 正 数 hn 且 和 加 一 0 及 liminfnhia > 0, 定义 


w(r) = {pr + hn) — br — hn) }/(2hn). (4.2.15) 


由 下 面 的 定理 , 渐 近 协 方差 阵 Va = 下 -1S 玫 -1 的 相合 估计 为 Vs =nK Sn 

a 一 1 
K.. 
定理 4.2.2 ERR 421 成 立 的 条 件 下 , 如 果 节 点 数 满足 kn œ n! Cr+, p 
n3K, >K, nS, -25S. (4.2.16) 


虽然 每 个 个 体 的 协 方差 结构 未 知 且 变 化 , 定理 4.2.2 显示 能 够 相合 地 估计 By 的 协 
方差 阵 . 

上 述 两 个 定理 的 证 明 可 以 参考 文献 (He, et al., 2002). 

4. 实例 分 析 


例 4.2.1 荷尔蒙 数据 ”有关 这 组 数据 ， 在 前 面 已 经 作 了 介绍 ， Zhang 等 
(1998) 和 Fung 等 (2002) 已 经 分 析 了 这 组 数据 . 在 这 里 , 分 别 用 最 小 一 乘 和 最 小 二 
乘 方法 再 分 析 这 组 数据 , 建立 如 下 模型 : 


Yij = B1AGE; + Bo2BMEL + f (tiz) + ĉij, 


其 中 , AGE;, BMI; 分 别 是 第 i 个 妇女 的 年 龄 和 体重 指标 , eij 不 像 Zhang ® (1998) 
和 Fung 等 (2002) 那样 假定 具体 的 分 布 . 首先 利用 最 小 二 乘法 分 析 , 按照 准则 (2.7), 
选取 样 条 的 节点 数 为 2, 具体 的 分 析 结 果 如 表 4.2 所 示 . 然后 , 利用 最 小 一 乘法 分 
Br, 分 别 按照 准则 (2.7) 和 (2.15) 选取 样 条 的 节点 数 为 2 和 j = 0.1. 分 析 结 果 
表明 最 小 二 乘法 、 最 小 一 乘法 同 Zhang 等 (1998) 大 体 相 当 , 体重 和 年 龄 对 荷尔蒙 
几乎 无 影响 (参数 的 T 检验 的 p 值 都 很 大 ); 最 小 一 乘法 中 体重 指标 负 影 响 更 加 小 . 
最 小 一 乘法 的 光滑 函数 的 B 样 条 通 近 如 图 4.2 Bras, 显然 , 荷尔蒙 随时 间 非 线性 变 
化 . 但 是 , 我 们 的 方法 不 仅 不 需要 假定 误差 的 分 布 , 而 且 计 算 方 法 简单 有 效 , 所 得 结 
果 同 其 他 方法 有 可 比 性 . 


表 4.2 ”和 荷尔蒙 数据 中 的 参数 估计 


我 们 的 方法 Zhang 等 
LSE LAD 8 
AGE 1.704(2.032) 1.634(2.408) 0.925(1.924) 
BMI —2.940(2.304) —0.852(3.088) ~2.913(2.376) 


通过 这 个 实际 例子 的 分 析 表 明 , 样 条 结合 M 估计 的 方法 是 切实 可 行 的 ; 同时 ， 
通过 大 量 的 模拟 分 析 表 明 (没有 放 在 这 里 ), 此 方法 简单 有 效 , 是 分 析 纵 向 数据 值得 
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推荐 的 方法 . 但 是 , 由 于 没有 假设 个 体内 部 的 协 方差 结构 , 当 个 体内 部 的 相关 程度 
比较 高 时 , 估计 的 效率 可 能 会 降低 . 为 了 提高 效率 , 结合 协 方差 结构 的 纵向 数据 分 
析 方 法 可 以 参考 我 们 的 最 新 研究 成 果 (Zhu, et al., 2008). 
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图 4.2 ”荷尔蒙 数据 的 荷尔蒙 随时 间 变 化 的 曲线 图 


4.2.2 ”广义 部 分 线性 模型 的 稳健 推断 


在 4.2.1 小 节 中 , 研究 了 响应 变量 是 连续 的 , 纵向 数据 的 部 分 线性 模型 的 M 估 
计 . 这 个 方法 的 特点 如 下 : © 不 同 损失 函数 (包括 二 次 、 绝 对 值 函数 ) 的 选取 能 够 
获得 不 同 种 类 的 估计 ; @ 在 个 体内 部 不 需要 解释 相关 结构 也 能 够 进行 有 效 的 统计 
推断 . 但 是 , 许多 纵向 数据 是 离散 数据 (如 分 类 数据 、 计 数 数据 等 ) 上 述 方法 就 不 
能 使 用 . 另 一 方面 , 当 纵 向 数据 个 体内 部 的 相关 性 比较 高 时 , 上 述 方法 的 效率 就 比 
较 低 . 为 克服 4.2.1 小 节 方 法 的 不 足 , 研究 如 下 模型 和 方法 : 


1. 广义 部 分 线性 模型 
考虑 如 下 半 参 数 广义 部 分 线性 模型 : 


(Hig) = EEB + f(t), 一 于 7 了 (4.2.17) 


其 中 , wij = E(yij), iz, B, FO, ti; 的 含义 与 模型 (4.2.1) 相同 , 函数 gC) 是 一 个 单 
调 的 函数 称 为 联系 函数 . 这 个 模型 能 够 刻画 连续 和 离散 纵向 数据 , 并 且 是 广义 线性 
模型 和 非 参数 模型 的 组 合 . 许多 研究 工作 者 已 经 研究 了 这 类 模型 . Boente 等 (2006) 
研究 了 当 ni = 1 时 , 即 独立 数据 的 广义 部 分 线性 模型 的 稳健 估计 . 当 非 参数 项 f(.) 
在 模型 中 不 存在 时 , Liang 和 Zeger (1986) 提出 了 一 个 非常 著名 的 方法 一 一 广义 
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估计 方程 (GEE) 方法 . GEE 方法 引入 了 “工作 相关 和 矩阵 ”来 刻画 个 体内 部 的 相关 
性 , 并 结合 广义 线性 模型 的 得 分 函数 , 构造 了 估计 方程 . 这 个 方法 的 特点 是 一 方面 
由 于 引入 “工作 相关 和 矩阵 ”提高 了 估计 的 效率 ; 另 一 方面 , 这 个 方法 无 论 选用 何 种 
“工作 相关 矩阵 ?， 参数 部 分 都 能 得 到 相合 估计 , 仅 是 效率 有 变化 .GEE 方法 在 分 
析 纵 向 数据 时 已 经 获得 了 大 量 的 应 用 .有 关 纵 向 数据 的 广义 部 分 线性 模型 , Lin 和 
Ying(2001) 研究 了 核 光 滑 的 Profile 估计 , Bai 等 (2008) 基于 二 次 推断 函数 , 研究 了 
参数 的 推断 方法 , He 等 (2005) 基于 GEE 思想 , 利用 B 样 条 逼近 非 参 数 函数 并 结 
合 稳健 估计 的 特点 , 提出 了 稳健 的 广义 估计 方程 (RGEE), 研究 了 这 个 模型 的 稳健 
统计 推断 方法 . 本 节 主 要 介绍 He 等 (2005) 的 成 果 . 


2. 稳健 估计 方程 


进一步 解释 模型 的 二 阶 矩 . 令 Var(yi;) = pulm), HP, 6 称 为 离 差 参数 , v(-) 
是 已 知 的 方差 函数 . 边际 期 望 Hij 用 如 下 模型 刻画 : 
nij = 9(13) = BB+ f (tis), pij = mij) = g7" (mj). (4.2.18) 
类 似 于 式 (4.2.4), 用 B 样 条 逼近 非 参数 函数 f(-), 那么 回归 问题 (4.2.18) 又 可 表 
示 为 
mij(9) = g(uiz(0)) = HB + r(tij) Ta = dy0, (4.2.19) 
其 中 , dij, 9, a 的 含义 与 式 (4.2.5) 相同 . Mi =1,---,m, 令 p; = (Miis y Hin)", 
Y; = (ya,… Yin) 及 相同 地 定义 X: 和 m. 进一步 有 1ii(8) = udio), 其中， 
uC) = 9-1(.). 根据 Preisser 等 (1999) 以 及 Lin 和 Ying(2001) 的 工作 , 为 了 使 用 yij 
的 前 二 阶 矩 的 边际 信息 , 选取 一 个 有 界 得 分 函数 y, 并 定义 如 下 稳健 估计 方程 : 


Ue(u(9)) = > U(ui(@)) = > DY AF (m(0))V 7 (pi(0),Y)hi(pi(0)) =0, (4.2.20) 
i=l i=1 

其 中 , Di = (a) aT) BARA RUM, hi(ui(O)) = Wild(ui(@)) 一 Ci(ui(0))] 是 估 
计 方程 的 核 , wy(yi(9)) = (Az? (Y: 一 pi(0))), Wi AAR BH, Ci(ui(0)) 为 纠 
偏 项 将 在 后 面 详细 解释 ，Ai(ii(6)) = diag{jir(O),--+ , rin, (O)} 及 hul) 表示 ul) 
的 一 阶 导数 并 在 dio WE, Ai = 9 diag(v(ui),--- ,v(uin,)), 9 维 参数 y 是 决定 工 
作 相 关 和 矩阵 Ri(y) 的 相关 系数 参数 , 令 Vi = Vilu,y) = Ril) Ai”. 因为 o 是 一 
个 离 差 参数 , V; 同 这 个 参数 无 关 . 可 以 选取 不 同 的 炒 函数 , 如 yl) = z, 在 这 种 情 
况 下 , 估计 方程 (4.2.20) 同 Liang 等 (1986) 的 广义 估计 方程 类 似 . 不 同 的 是 在 式 
(4.2.20) 中 加 入 了 一 个 同 其 他 协 变量 有 关 的 权 和 矩阵 , 当 W= IM R(y) = 工时 , 这 
个 估计 方程 就 是 McCullaug 和 Nelder(1989) 的 拟 似 然 估 计 方 程 . 在 本 节 中 , 主要 研 
究 多 是 一 个 Huber's Score AR, BI y(x) = min(c, max(—c,x)), BHE c € [1,2] 为 常 
BL, c 的 选取 将 会 影响 最 终 稳健 估计 的 效率 , 本 节 取 c = 1.5. 
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这 个 估计 方程 有 如 下 特点 : O 它 能 够 同时 限制 自 变量 和 因 变 量 的 异常 值 对 佑 
计 的 影响 ; @ 它 结合 了 “工作 相关 矩阵 ", 考虑 了 个 体内 部 的 相关 性 , 能 够 提高 估计 
的 效率 , 这 些 在 实例 分 析 和 计算 机 模拟 中 都 得 到 了 证 实 . 这 个 估计 方程 综合 了 GEE 
和 稳健 估计 方程 的 特点 , 所 以 把 它 称 为 RGEE. 

权 函 数 矩阵 Wi = diag{wi,… ,win;} 是 一 个 对 角 和 矩阵 , 用 来 限制 协 变量 中 有 异 


常 点 的 影响 . 利用 va 

wee { 上 十 Cn ma)||? } (4.2.21) 
计算 权 , 其 中 , dim(d) 表示 d 的 维 数 , ma 和 Sa 分 别 表示 di; 的 中 位 数 和 中 位 数 绝 
对 偏差 . 如 果 考 虑 全 部 协 变量 zi 和 伪 协 变量 r(t), Wid di = (wh, xT (tiy))*. 
在 实际 中 , 可 以 排除 某 些 对 杠杆 点 没有 贡献 的 协 变量 ， 如 取 值 0, 1 的 协 变量 . 老 
ti; 在 一 个 区 间 内 均匀 分 布 , 则 对 应 的 B 样 条 基 函 数 不 大 可 能 对 杠杆 点 有 太 多 的 贡 
aR, 在 计算 权 函 数 时 可 以 不 予 考虑 . 由 于 yl) = (Ap (Y: 一 pi)), 使 用 Ci(ui) = 
EWA (Y; — ji))) 去 保证 估计 的 Fisher 相合 . 注意 到 在 对 称 分 布 情形 下 , 如 正 
态 分 布 , Ci(ui) = EY(A7 (Yi — wi)) = 0. 对 一 些 非 对 称 分 布 , 如 Poisson 分 布 、 二 
项 分 布 等 , 可 以 利用 数值 积分 计算 Ci. 

离 差 参数 ¢ 可 以 用 


$= {1.483 median{|éi, — median{é;+}|}}? (4.2.22) 


估计 , 其 中 , ĉi = [yit 一 pie(O)]/[v(uie(O))]*/? 是 Pearson RÆ, 9 是 8 的 一 个 估 
it, 这 是 一 个 相合 估计 . 利用 w(1:(9)) — Ci(ui(6)) 稳健 的 相关 系数 , 像 Liang 和 
Zeger(1986) 那样 , 估计 +. 

下 面 讨论 求解 估计 方程 (4.2.20)， 首先 说 明 当 用 BARRERA Ae 
近 fo(:) 时 , 节点 的 选择 问题 . 类 似 于 He 等 (2005), 节点 的 数目 取 为 NAO 的 整 
数 部 分 , 其 中 , Ne 是 {tyli = 1,--- m j = 1 ,mi} 的 可 区 分 的 设计 点 的 个 数 . 
这 个 节点 数目 的 选择 与 后 面 讨论 的 渐 近 性 质 中 有 关 结 论 所 需 的 最 优 节点 数 是 一 致 
的 , 但 是 主要 原因 是 经 验 上 的 试验 结果 和 为 了 简化 处 理 . 对 于 节点 位 置 , 采用 样本 
{tyli = 1,---,m,j =1,--- ,ni} 的 分 位 数 作 节 点 . 例如 , 使 用 4 个 节点 , 则 从 样本 
{tyli =1,---,m,j 二 1,… ,nz} 中 选取 样本 的 1/5,2/5,3/5,4/5 分 位 数 作为 节点 . 

利用 Fisher Scoring 算法 来 求解 估计 方程 (4.2.20). 给 定 0, 7 A o HPA, 于 
是 可 以 通过 下 面 的 迭代 过 程 , 获得 9 的 估计 : 


e900 (prune)D,) > DEAT (pi(0)) Vi (pi(O)hi(p(0))|  ， 
i=1 t=1 e—e') 
(4.2.23) 
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其 中 , Dilu (0))= AT (ja(O) V7 (In(0)) Eiu (0)) Aa (a (0)), Filu (0))=Eh: l (0))= 
EOhi(p) /Oni|, u0) i=0,1,---,m. ; f 

迭代 收敛 后 , 把 最 后 的 解 称 为 稳健 的 GEE 估计 , 记 为 BrceE 和 froen(t) = 
wT(t)&. 一 般 情况 下 , 只 要 初始 值 选取 合适 , 迭代 收敛 能 够 得 到 保证 . 选取 GEE fhi 
计 作 为 迭代 的 初始 值 . 

3. 估计 的 渐 近 性 质 


为 研究 Broere 和 faces 的 渐 近 性 质 , 首先 给 出 一 些 正 则 条 件 . 记 uij = E(yiz) = 
go (eB + f(t) = 1 m). 进一步 , 记 ei = APY: 一 m), 其 中 p; = 
(is, Hini)”, ylei) 表示 函数 YO 作用 于 e; 的 每 一 个 分 量 . hi(ei) = Wil(ex)— 
Ey(ei)) 也 记 作 向 量 . 另外 , 记 juij(8) = g Mah + wha) = 9 '(d56). 

条 件 (A.8) ”存在 6 > 0, 使 

sup E||h;(e,)|!?+® < co， Ehi(e:)hi (ei) = Bi >0 及 supllBil| < co. 
i21 i 
条 件 (A.9) ”存在 正常 数 Ci, 使 得 


oo > supv(1i;) 2 inf v(1i;) > Ci > 0， 
ij bj 


函数 v(-), gI) 和 Cili) = Epela) i- wag) BAAN SR Hi 


Hyl) 二 次 分 段 可 导 且 导数 有 界 . 


条 件 (A.10) ”假定 相关 系数 参数 的 估计 4 是 n 相合 , 即 nt? 一 Ww) = 
O,(1). 
进一步 , 令 
5° = diag(Z°,---, 5°), X=-(1-P)X, P=MM FM) MSD", 


K,-X°S°X 和 5, = 》 X; Ag: Vg Cov(hi(ei))V5 3 40: Xi, 
i=l 
其 中 , Aoi = 4l), D? = Di(ui) 和 Yoi = Vilu). 为 建立 Brors 的 渐 近 正 态 性 ， 
需要 如 下 条 件 : 
条 件 (A.11) ”对 充分 大 的 n, k (MTS? M) 非 奇异 且 MT DOM (k,/n) 的 特 
征 值 大 于 0, 小 于 无 穷 大 . 
条 件 (A.12) ”条 件 (2.11) 成 立 , 并 且 有 


nlK, -OK>0, nS, 5S>0. 


条 件 (A.8) 和 条 件 (A.9) 是 加 在 得 分 函数 y 上 的 , 这 些 条 件 非 常 一 般 ; GR y 
EARRA, 则 条 件 (A.8) 和 条 件 (A.9) 自动 成 立 . 条 件 (A.11) 和 条 件 (A.12) 类 似 
于 条 件 (A.6) 和 条 件 (A.7). 
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由 上 述 条 件 , 有 如 下 定理 : 
定理 4.2.3 ”在 条 件 (A1), 条 件 (A.2) 和 条 件 (A.8) ~ 条 件 (A.12) 下 有 


Z D J (facer(tij) — foltij))? = Op(n ~? 0+9) (4.2.24) 
=1;9=1 
和 
Vn(BroeEe ~ By) 一 N(O, Va), (4.2.25) 


其 中 ,Va=K ‘SK. 


定理 4.2.3 的 证 明 可 以 参见 文献 (He, et al., 2005). 

定理 4.2.3 表明 由 稳健 估计 方程 (4.2.20) 得 到 的 参数 与 非 参 数 估计 一 方面 具 
有 稳健 性 质 ; 另 一 方面 , 它们 能 够 同时 达到 最 优 收敛 速度 . 这 个 结论 把 Liang 和 
Zeger(1986) 的 相关 结论 推广 到 了 半 参 数 模型 , 同时 , 只 要 正确 假定 方程 (4.2.20) 中 
的 相关 系数 矩阵 Rey), 就 获得 了 参数 估计 的 半 参 数 有 效 性 ， 这 一 性 质 同 Lin 和 
Carrol (2001) 利用 Profile 核 估 计 得 到 的 结论 完全 不 一 样 . 在 文献 (Lin and Carroll, 
2001) F, 他 们 利用 加 权 核 估计 非 参 数 部 分 , 为 得 到 参数 的 最 优 收 敛 速度 估计 , 只 能 
假设 个 体内 部 是 “工作 独立 ”, 不 然 要 “Undersmoothing”. 


4. 实数 据 分 析 


为 了 进一步 说 明 稳 健 方法 的 可 行 性 , 应 用 广义 部 分 线性 模型 去 拟 合 GUIDE 数 
据 , 并 采用 稳健 方法 分 析 . 

例 4.2.2 GUIDE 数据 (Preisser and Qaqish, 1999) Preisser 和 Qaqish (1999) 
利用 GEE 和 稳健 方法 分 析 了 该 组 数据 . 对 该 组 数据 建立 下 面 的 广义 部 分 线性 模型 : 


logit(li) = #18 + fo(AGE;;), 


其 中 , zi 包含 GENDER, DAYACC, SEVERE, TOILET. 在 我 们 的 分 析 中 , 假定 
AGE 变量 作为 非 参数 函数 的 变量 纳入 模型 , 并 用 两 个 内 节点 的 立方 回归 样 条 壳 近 . 
我 们 在 估计 方程 中 使 用 可 交换 的 工作 相关 矩阵, 但 是 相关 系数 的 估计 接近 于 0, 说 
明 相同 治疗 小 组 内 病人 几乎 不 相关 . 这 个 现象 同 实 际 不 太 吻 合 , 实际 上 , 在 每 个 治 
疗 小 组 内 部 的 病人 相互 影响 , 并 且 使 用 相同 的 治疗 方法 , 从 而 在 同一 组 内 的 试验 结 
果 有 相关 性 . 现在 这 个 方法 还 是 没有 发 现 这 个 事实 . Preisser 和 Qaqish (1999) 也 没 
有 发 现 这 一 事实 . 在 下 面 的 方法 中 , 我 们 利用 混合 模型 的 稳健 估计 方法 重新 分 析 了 
这 组 数据 , 得 到 了 更 加 合理 的 结论 . 图 4.3 给 出 了 关于 年 龄 的 非 参数 函数 的 估计 曲 
线 , 呈现 了 一 个 有 趣 的 现象 : 在 85 岁 以 后 , 受 困 扰 的 概率 随 着 年 龄 的 增长 而 减少 ， 
明显 呈 非 线性 状态 . 
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0.0 0.5 1.0 1.5 
AGE 


4.3 GUIDE 数据 中 关于 年 龄 的 非 参 数 曲线 图 


表 4.3 给 出 了 我 们 估计 的 结果 , 并 列 上 Preisser 和 Qaqish(1999) 的 估计 结果 作 
为 比较 . 这 里 , 稳健 方法 中 权 函 数 wi; 的 计算 是 基于 协 变 量 Z =(DAYACC, TOI- 
LET) 的 . 由 于 年 龄 变量 AGE 进入 模型 的 方式 不 一 样 , 由 表 4.3 可 以 发 现 我 们 的 稳 
健 估 计 与 Preisser 和 Qaqish (1999) 的 稳健 估计 在 数值 上 存在 一 定 的 差异 . 在 我 们 
的 稳健 估计 中 , 性 别 变量 GENDER 在 统计 意义 下 是 显著 的 , 这 个 显著 性 质 没 有 被 
广义 线性 模型 所 揭示 . 数据 中 有 63% 的 妇女 回答 的 “是 ", MA 45% 的 男性 回答 的 
“是 ”, 所 以 这 个 变量 显著 是 合理 的 . 如 果 不 用 稳健 方法 , 两 个 模型 中 的 GENDER 和 
TOILET 两 个 变量 都 不 显著 . 根据 Preisser 和 Qaqish (1999) 的 讨论 , 第 8, 19, 42, 44 
和 88 个 病人 有 非常 高 或 低 的 上 厕所 和 尿 遗 留 的 频数 , 所 以 在 模型 中 扮演 着 高 杠杆 
点 的 角色 , 并 且 这 些 病 人 所 对 应 的 响应 变量 是 异常 的 , 即 背 离 了 一 般 趋 向 . 稳健 方 
法 降低 了 这 些 观 察 点 的 权 , 更 加 精确 地 反映 了 变量 之 间 的 关系 . 


表 4.3 GUIDE 数据 的 回归 参数 估计 


半 参 数 模型 参数 模型 
Robust Nonrobust GEE Schweppe 
截 距 - 一 一 3.04(0.96) 一 3.93(1.21) 
GENDER —1.57(0.61) —0.85(0.58) —0.75(0.60) —1.34(0.75) 
AGE(10 年 ) 一 = —0.67(0.56) —1.49(0.70) 
DAYACC 0.59(0.14) 0.49(0.11) 0.39(0.09) 0.56(0.12) 
SEVERE 0.67(0.40) 0.89(0.39) 0.81(0.36) 0.72(0.37) 
TOILET 0.27(0.10) 0.09(0.08) 0.11(0.10) 0.36(0.13) 


在 我 们 的 稳健 方法 中 , 变量 SEVERE 不 显著 . 我 们 又 仔细 研究 了 这 个 变量 , 发 
现在 我 们 的 模型 中 , 这 个 变量 对 输出 变量 的 影响 已 经 被 其 他 两 个 变量 解释 了 . 在 这 
个 例子 中 , 非 参 数 成 分 和 稳健 估计 方程 的 使 用 , 使 我 们 能 够 在 GUIDE 研究 的 预测 
因子 获得 了 额外 的 洞察 力 . 
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4.2.3 “一些 相关 的 问题 


上 述 两 小 节 向 大 家 介绍 了 纵向 数据 边际 模型 的 一 些 推 断 方法 .第 一 种 方法 简 
单 便于 计算 , 包括 了 最 小 一 乘法 和 最 小 二 乘法 . 它 的 特点 是 不 需要 解释 个 体内 部 的 
协 方差 阵 . 但 是 , 这 种 方法 只 适宜 响应 变量 是 连续 型 变量 和 个 体内 部 相关 性 不 高 的 
时 候 . 第 二 种 方法 提出 了 一 类 稳健 估计 方程 , 并 且 包 含 GEE 方法 . 但 是 需要 假定 
工作 协 方差 阵 , 当 工 作协 方差 阵 假定 正确 时 , 能 够 提高 推断 的 效率 . Zhou 等 (2008) 
基于 RGEE, 对 边际 广义 部 分 线性 模型 的 参数 部 分 提出 了 稳健 检验 方法 , 并 获得 了 
检验 统计 量 的 渐 近 分 布 . 最 近 , Wang, Zhu 和 Zhou (2009) 基于 分 位 数 回归 , 研究 了 
部 分 变 系数 模型 的 参数 和 系数 函数 的 估计 和 检验 问题 . 

对 上 述 边际 模型 , 为 了 提高 效率 , 必须 通过 某 种 方法 估计 相关 系数 . 在 某 些 情 
况 中 , 无 论 是 Liang 和 Zeger(1986) MIAH, 还 是 这 里 的 稳健 矩 估 计 , 这 些 协 方差 
阵 中 的 相关 系数 参数 的 估计 有 可 能 会 不 收敛 . 进而 , 导致 RGEE 和 GEE 方法 不 能 
实施 . 

基于 上 述 考虑 , Qin 和 Zhu(2009a) 对 相关 系数 提出 了 稳健 估计 方程 , 也 可 称 为 
RGEE2 方法 : 


“fa 一 Ov; 
Uys(%H)= >) {ge [wav 1(-y) BO] 
i=1 s 
-inTV n KO Vh} _0 PEEN 


s=1,---,q, 其 中 , q 为 7 的 维 数 , a 由 模型 中 数据 实际 边际 分 布 决定 的 纠偏 系数 ， 
可 以 通过 数值 积分 或 Monte Carlo 方法 计算 . 例如 , 在 正 态 分 布 情形 下 , 经 过 计算 
a = 0.9205, 其 他 符号 的 意义 同上 . Qin 等 (2008) 针对 边际 分 布 是 非 对 称 分 布 时 , HE 
出 纠偏 的 稳健 估计 方程 . 通过 理论 和 计算 机 模拟 证 实 了 提出 的 方法 相当 有 效 . 

另 一 方面 , Bai 等 (2008) 基于 Qu 和 Song(2004) 的 二 次 推断 函数 方法 , 对 纵向 
数据 的 部 分 线性 模型 提出 了 对 应 的 二 次 推断 函数 , 并 且 证 明了 二 次 推断 函数 与 似 然 
比 统计 量具 有 相同 的 性 质 , 即 渐 近 x? 性 质 . 这 个 方法 避免 了 协 方差 参数 的 估计 , 类 
似 于 广义 矩 估 计 (GMM). Bai 等 (2009a) 把 上 述 方法 推广 到 了 纵向 数据 的 单 指标 
模型 . 

文献 (Lin and Carroll, 2001) 指出 , 车 利用 局 部 线性 核 方法 估计 边际 非 参 数 回 
归 模 型 中 的 非 参 数 函数 , 估计 的 偏差 同 个 体内 部 的 协 方差 阵 有 关 . 在 “工作 独立 ?” 
假定 时 , 估计 的 方差 最 小 . 若 利用 B 样 条 估计 回归 函数 , Zhu 等 (2008) 证 明了 估计 
的 偏差 同 个 体内 部 的 协 方差 阵 无 关 , 并 且 当 正确 假定 协 方差 阵 时 , 估计 的 方差 最 小 . 
这 些 结论 与 Lin 和 Carroll(2001) 的 不 太一 致 且 有 趣 . Qin 和 Zhu (2009b) 把 Zhu 
等 (2008) 的 结果 推广 到 了 部 分 线性 模型 , 证 明了 无 论 是 非 参 数 还 是 参数 估计 , 利用 
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样 条 光滑 方法 正确 假设 个 体内 部 协 方差 时 , 估计 最 有 效 . 

对 于 边际 模型 , Xue 和 Zhu(2007a) 利用 经 验 似 然 方 法 研究 了 部 分 线性 模型 中 
参数 和 非 参 数 的 经 验 似 然 推 断 方法 ， 获 得 了 有 关 参 数 和 非 参 数 的 经 验 似 然 置 信 区 
域 . 最 近 , Zhang 和 Zhu (2009) 研究 了 部 分 线性 模型 的 参数 部 分 的 经 验 似 然 推 断 ， 
证 明了 当 正 确 假设 个 体内 部 协 方差 结构 时 , 参数 的 经 验 似 然 置信 区 域 最 小 ( 即 最 有 
%). Bai 等 (2009b) 也 研究 了 经 验 似 然 推 断 , 获得 了 一 个 有 趣 的 结论 : 无 论 用 何 种 
协 方差 阵 , 经 验 似 然 比 总 是 有 Wiks 现象 . 但 是 通过 计算 机 模拟 发 现 , 当 假设 正确 
的 方差 阵 时 , 经 验 似 然 似 然 置信 区 域 最 小 ( 即 最 有 效 ). Wang 和 Zhu(2009b) 研究 了 
纵向 数据 模型 的 经 验 似 然 的 高 阶 渐 近 推断 , 获得 了 二 阶 校正 置信 区 域 . 


4.3 ”混合 效应 模型 


4.2 节 研 究 了 纵向 数据 边际 模型 的 统计 推断 间 题 , 主要 目的 是 研究 回归 系数 的 
统计 推断 问题 , 即 研究 自 变量 和 因 变 量 之 间 的 群体 效应 ; 方差 部 分 仅 是 讨厌 参数 或 
者 是 为 了 使 均值 部 分 推断 更 加 有 效 . 在 产生 纵向 数据 的 实践 问题 中 , 有 许多 研究 目 
标 , 主要 有 以 下 几 个 : @ 研究 自 变量 和 因 变 量 之 间 的 关系 ; @ 研究 个 体 之 间 的 差 
Se. 由 此 , 在 20 世纪 60 年 代 提出 了 随机 效应 模型 或 者 混合 效应 模型 .本 节 研 究 广 
义 部 分 线性 混合 效应 模型 的 稳健 推断 . 


4.3.1 ”广义 部 分 线性 混合 效应 模型 的 稳健 推断 


广义 部 分 线性 混合 效应 模型 (GPLMM) 在 医学 、 生物 、 经 济 中 有 着 广泛 的 应 用 . 
GPLMM 实际 上 是 广义 部 分 线性 模型 (GPLM) 和 广义 线性 混合 效应 模型 (GLMM) 
的 结合 . 采用 部 分 线性 模型 可 以 避免 非 参 数 函数 中 包含 高 维 的 协 变量 , 而 加 入 随机 
效应 则 可 以 刻画 出 数据 中 个 体 之 间 的 差异 和 纵向 数据 或 重复 测量 数据 中 个 体内 观 
察 数 据 的 相关 性 . 特别 当 响 应 变量 为 离散 数据 时 , 在 模型 中 引入 随机 效应 更 为 常用 . 
因为 在 这 种 情况 下 , 通过 在 模型 中 加 入 随机 效应 , 一 方面 , 能 够 刻画 数据 相关 性 和 
个 体 之 间 的 差异 ; 另 一 方面 , 可 以 得 到 样本 的 似 然 函 数 , 进行 有 效 的 统计 推断 .但 
E, 这 也 给 计算 估计 和 推断 带 来 了 很 大 的 计算 麻烦 . 本 节 结 合 稳健 估计 和 ”MCMC 
方法 , 研究 此 类 模型 的 有 效 统计 推断 方法 . 

1. 模型 和 估计 方法 


对 于 观察 到 的 数据 集 为 {(zij,9ij,tij);i = 1,… ,mj 二 1,… ni}. 假定 在 来 自 
第 i 个 个 体 的 随机 效应 U: 给 定 的 条 件 下 , 响应 变量 Yi = (yir ,yin;) 服从 以 
下 的 条 件 指数 族 分 布 : 


fy wu. (Y lUi, Bo, fo. ?) = [] expltyi;90,i3 — b(80,i3)}/O + e(yiz, 9], (4-3-1) 


j=l 
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其 中 , 60,5; 是 典 则 参数 , 5(.) 和 c(.,-) 是 由 分 布 确定 的 已 知 函 数 . 记 EB(yij|Ui) = Ho,ijs 
Var(yij|Us) = 加 (po i= 1, om j= 1, ni 其 中 , 6 是 离 差 参 数 , wv(-) 是 已 
知 的 方差 函数 , 是 条 件 均 值 joi; 的 函数 , 描述 了 响应 变量 的 方差 与 均值 之 间 的 关 
系 . 条 件 均 值 poi; 与 典 则 参数 的 联系 通过 下 面 的 公式 表示 : jo0i; = b(90,i;), HP, 
b(00,ij) 表示 blbo) 对 80,4; 的 一 阶 导 数 . 假定 条 件 均值 uoi 满足 下 面 的 关系 式 : 


nf; = 9(Ho,i3) = Bo + folt) + zhUi, poaz = KA) = 9 (nh) (4.3.2) 


其 中 , By 是 p 维 回归 参数 , 协 变量 为 xi;, fo(-) 是 未 知 的 光滑 函数 , U; 是 9 维 随机 
效应 向 量 , 相应 的 协 变量 为 zj ,9(.) 是 给 定 的 联系 函数 , 通过 g(-), 可 以 将 条 件 均 
值 mou 的 某 个 变换 与 协 变量 建立 联系 , 从 而 可 以 描述 更 多 的 实际 问题 . 假定 随机 
效应 Ui 独立 同 分 布 服从 九 (CID) = 1,… ,m, S 未知 .进一步 假定 来 自 不 同 个 
体 的 观察 值 是 独立 的 . 不 失 一 般 性 , 类 似 4.2 节 , 假定 好 的 取 值 范围 是 区 间 [0,1]. 
Bo, Z, fo 是 感 兴趣 的 参数 与 非 参 数 函 数 . 离 差 参数 o 是 讨厌 参数 , 可 以 采用 它 的 一 
个 相合 估计 来 估计 , 类 似 式 (4.3.16) 的 估计 . 

模型 (4.3.1), (4.3.2) 是 一 类 非常 广泛 的 模型 , 它 包 含 了 连续 分 布 模型 , 如 正 态 、 
i at. Gamma 分 布 等 模型 , 和 离散 分 布 模型 , 如 二 项 、Poisson 等 模型 . 本 节 主 要 
介绍 广义 部 分 线性 混合 效应 模型 , 主要 内 容 来 自 于 文献 (Qin and Zhu, 2007). AX 
正 态 部 分 线性 混合 效应 模型 的 稳健 统计 推断 可 以 参考 文献 (Qin and Zhu, 2008). 

类 似 于 前 面 几 节 ， 首 先 采 用 B 样 条 来 逼近 fo, BY wT (t)a IME folt), HP, 
w(t) = (Bi(t),---,Bu(t))?’ AN x1 维 向 量 , a € RN 为 样 条 系数 向 量 . 这 样 可 以 
线性 化 式 (4.3.2), 于 是 得 到 

mij (80) = glij (00)) = By + rltij) a + zd Ui = dy0o0+ zsU;, (4.3.3) 
其 中 , dij = (zg ng)", Oo = (BE aT) T 为 待 估 的 联合 回归 参数 . 记 u00, Ui) = 
(ja(00, Di , pin, (@0,Ui))?, jij(00,Ui) = gt (dE 0o + zEU,), 类 似 地 , 可 以 定 
X Xi, Zi 和 mi j=, m, j=l, ni. 

类 似 于 式 (4.2.20), 对 模型 (4.3.1) 提出 如 下 稳健 估计 方程 来 估计 式 (4.3.3) 中 
的 向 量 Op: 


Euy | > DY Ai{j(0,Ui)} 4 TY {pi(0, Ui)}hi{pi(0, Ui)}| = 0， (4.3.4) 

i=l 
其 中 , Ai(9, UUi) = diag{ha (0, U:), + , in, (0,U;)}, 其 中 , aC) 表示 p(-) EdEo + 
2jU i 处 的 一 阶 导数 , A= Ai{pi(0,Ui)}= ġdiag{o(ua (0, U:)), -> ,v(pini(0, Ui))}, 
hi(0,U;) = Wifh(ui(@))—Ci(ui(0))} 是 该 估计 方程 的 核 , HP, W = diag(wil,:…， 
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Win,) FEAL AGE, 类 似 于 文献 (Sinha, 2004), 选取 权 函 数 wi; 为 Mahalanobis EB 
离 的 函数 , 具体 表达 式 为 


bo y/2 
wij = w(zij) = min (. Gare m S e; =} ) ; 

其 中 , y > 1, 在 本 章 中 考虑 等 于 1, bo 为 自由 度 等 于 sy 维 数 的 x? 分 布 的 95% 分 
位 数 , ms HS, 分 别 是 变量 zi; 位 置 参数 和 尺度 参数 的 某 个 稳健 估计 ，C; 是 纠偏 
项 , y 是 一 个 Huber's Score 函数 , 同 估计 方程 (4.2.20) 中 的 含义 一 致 . 

这 个 估计 方程 同 式 (4.2.20) 非常 相似 , 但 是 这 个 方程 中 含有 不 可 观察 的 随机 效 
应 . 在 广义 线性 混合 效应 模型 下 , 样本 的 似 然 函数 带 有 关于 随机 效应 U 的 积分 , 因 
此 , 对 样本 的 对 数 似 然 函数 求 导 所 得 的 估计 方程 带 有 观察 值 给 定 下 关于 随机 效应 U 
的 条 件 期 望 . 这 里 提出 的 估计 方程 (4.3.4) 与 估计 方程 (4.2.20) 的 最 大 差异 在 于 估 
计 方 程 (4.3.4) 在 观察 值 Y 给 定 的 条 件 下 对 随机 效应 U 取 了 条 件 期 望 . 通常 情况 
下 , 这 个 条 件 期 望 没有 显 式 解 . 这 是 这 种 方法 的 特点 和 难点 . 

Sinha (2004) 提出 了 类 似 的 估计 方程 , 但 是 我 们 的 估计 方程 (4.3.4) 同 他 的 方程 
最 大 的 不 同 点 在 于 当 样 本 量 n 一 co 时 , 参数 6 的 维 数 将 趋 于 无 穷 . 这 给 研究 估计 
的 渐 近 性 质 带 来 了 很 大 的 困难 . 另 一 方面 , 值得 注意 的 是 估计 方程 (4.3.4) 中 的 数学 
期 望 Eu, 中 也 包含 未 知 参数 需要 估计 . 这 对 于 计算 估计 的 大 样本 渐 近 标准 差 的 影 
响 很 大 . 不 考虑 Euy 中 的 未 知 参 数 将 会 造成 估计 的 大 样本 渐 近 标准 差 低估 了 该 估 
计 实 际 的 标准 差 , 这 在 正 态 情形 下 更 加 明显 , 而 Sinha(2004) 并 未 考虑 Euy 中 含有 
未 知 参 数 . 我 们 在 计算 估计 和 研究 性 质 时 考虑 了 这 一 问题 , 得 到 了 比较 好 的 结果 . 
为 了 区 别 在 其 他 参数 处 的 期 望 , 记 在 真实 参数 处 取 的 条 件 期 望 为 BO. 

关于 B 样 条 基 函 数 的 节点 数 和 节点 的 位 置 的 选择 问题 , 类 似 于 1.2.2 小 节 . 由 
此 , 可 以 通过 下 面 的 迭代 过 程 , 获得 0 的 估计 : 


a -1 
gt) — 9) + {2 > DY Qi(pi(0, vp, 


t=1 


[eus 位 DT Ai(ji(0, Ui)) A, (pi(0, Ui))hi(pi(0, Ui) 


i=1 


其 中 ， 
04(4(0,U)) = - Fo uy Aso, U:)) A7"? 
- (ui(O, Ui))hi(ui(O, Ui))}) Ai(ui(@, U:)). 


为 计算 式 (3.5) 中 的 条 件 期 望 , 需要 获得 随机 效应 U 在 观察 值 Y 给 定 下 的 条 
件 分 布 , 即 UIY 的 分 布 . 而 UY 的 分 布 一 般 难以 计算 , 因为 它 的 计算 需要 先 有 Y 
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的 边际 分 布 , 而 Y 的 边际 分 布 是 通过 将 (Y,U) 的 联合 分 布 中 的 随机 效应 U 积分 积 
去 求 得 的 , WR U 是 高 维 随机 变量 , 将 涉及 一 个 高 维 积分 问题 , 通常 难以 处 理 . 

类 似 于 文献 (Sinha, 2004), 这 里 采用 Metropolis 算法 从 U|Y 中 产生 随机 抽样 
值 , 然后 利用 Monte Carlo 方法 近似 式 (3.5) 中 条 件 期 望 . Metropolis 算法 不 需要 Y 
的 边际 分 布 , 从 而 可 以 避免 高 维 积分 问题 . 

为 了 简便 起 见 , 下 面 用 fu), 表示 Y 给 定 下 Ui 的 后 验 密 度 函 数 , fy. 表示 Ui 
给 定 下 Y 的 条 件 密 度 函数 ， 类似 地 , 用 fy 和 fu 分 别 表 示 Yi 和 Ui 的 边际 密度 
函数 . 

假定 U 为 大 维 向 量 , 则 同时 产生 整个 UY = (wily,… ,uxly) 是 困难 的 , 因此 ， 
采用 单元 素 的 Metropolis-Hastings 算法 , 通过 依次 抽取 UY 的 各 个 分 量 产生 整个 
UY. 选择 f,(U|2) 作为 候选 分 布 , 然后 给 出 接受 函数 , 由 该 函数 确定 接受 新 值 的 
概率 . 单元 素 的 Metropolis-Hastings 算法 的 实现 步骤 如 下 : 

(1) 从 候选 分 布 九 (CUIZ) 中 抽取 U = Go … ,Uk) 作为 初 值 ; 

(2) 41=0,U =U; 

(3) 从 条 件 分 布 fu(wilu，,… ul?) 中 抽取 样本 wi 作为 替换 UO = (uP, 
uh) 第 一 个 分 量 ul? 的 候选 值 , 以 概率 


futy(U rly, 0, E) fulu P lus, Ai ul), 0, =) 


; (4.3.6) 
fuly(Uly,0, 5)fu(uilud),:.. ,ul?, 0, D) 


oa(u u) = min ę 
接受 uy; 否则 拒绝 u, RB uP, HH, U, = (uug, uP) U = DO 
WUP = (uj, uP,- uh), 车 接受 u, 则 ut =u); BM, ut =u. 
然后 ， 依次 从 fly ae uj. pu ue ye uO) = = 2,- k) 抽取 样本 uj 作 
AU 的 第 j(j = 2 k) 个 分 量 uP 的 候选 值 , 以 概率 


Fay Oslo E) fu(us? lui, wpa uly ug), 0, D) 
fuy (U3? 1ly, 9, £)fulu; | 2 a, 2) 
(4.3.7) 

接受 uj 否则 , 拒绝 uj, 保留 ut, 其中, Uj= (uinu nuput utu = 
(uj, ,U7 pu ul). Se ju), 

BUP = (ufone oe ul), ARE WB, wp = ns SSA = 
u®, 当 抽 完 UO 的 第 大 个 分 量 时 , 就 抽 到 一 个 完整 的 新 值 UC+D = (ut, put). 

4i=1+1. 

(4) 重复 步骤 (3), 直到 UO 的 抽样 分 布 收敛 为 止 , 此 时 抽 得 的 UD 就 是 来 自 
ULY 的 一 个 样本 . 


Qj (uf u) = min (. 
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注意 到 式 (3.6) 中 的 第 二 项 可 以 化 简 为 


TET 6s 
fa (Uy 0, D) ULE) fy0,0,5) L Faniulusl5.9, 7) 
a maA a may peeve E a ea a a a a a a en eee 
fuy (U$? 1ly,0, 元) 六 (DC 已) fyulylU 2,8, 5) Il frlu (yilU ,0, 5) 
i=] 


由 此 , 这 里 接受 函数 (ul, u) 的 计算 只 涉及 YIU 的 条 件 分 布 , 不 需要 其 他 分 布 . 

我 们 在 Fisher Scoring 迭代 过 程式 (4.3.5) 中 加 入 单元 素 的 Metropolis-Hastings 
算法 来 计算 条 件 期 望 的 Monte-Carlo 估计 . 具体 算法 可 描述 如 下 : 

(1) 令 ms = 0, 选择 OO 和 OO, 初 值 的 选取 可 以 采用 一 般 的 MCFS 估计 , 类 
似 于 文献 (McCulloch, 1997); 

(2) 采用 Metropolis 算法 , 从 条 件 分 布 fuyy UL, 00"), Dm) 中 抽取 N 个 观 
察 值 UD,- UY), 然后 利用 这 些 抽样 值 计算 条 件 期 望 的 估计 值 . 过 程 如 下 : 

(i) 利用 下 式 计算 ort, 


N (m i 
1 
(m, +1) cate) i TO./ (pma) (s) . 
0 =) 4 Š X 人 D; Qi(pi(0™"’, U:; po 


s=1 Ni 一 1 


; 
s=1 \i=1 


N m 
È > 位 DY A,(O™), UOA YO, UO) hir (0, vo) 


(i) RA 5 D inf, (UD) 来 计算 DO; 

(iii) 令 ms = ms + 1; 

(3) 重复 第 (2) 步 直 至 估计 收敛 .bm*+1) 和 Om +) 就 是 go A S 稳健 的 
MCMC 估计 , WA brm 和 Sam, 其 中 , N 表示 MC 的 链 长 , N 越 大 , 估计 的 精度 
越 高 . 一 般 地 , 在 模拟 研究 中 令 N = 500, 就 能 达到 比较 好 的 效果 . 如 果 想 要 更 高 的 
精度 , 要 求 N = 2000 或 更 大 . 

当初 值 在 其 真实 值 附 近 时 , 该 算法 具有 较 高 的 收敛 速度 . 但 是 当初 值 任意 选取 
时 , 则 该 算法 的 收敛 性 不 能 保证 . 在 实际 中 , 若 发 生 不 收敛 的 情况 , 可 以 尝试 选择 不 
同 的 初 值 . 在 文献 (Qin and Zhu, 2007) 中 进行 的 大 量 模拟 发 现 , 当 采 用 步骤 (1) 中 
的 初 值 时 , 未 发 生 不 收敛 的 情况 . 

此 方法 的 优点 是 : 如 果 仅 仅 对 均值 感 兴趣 , 则 只 需要 假设 响应 变量 在 随机 效应 
已 知 的 条 件 分 布 . 通过 估计 方程 (4.3.4) 能 够 求 得 稳健 估计 , 并 且 估计 是 最 优 的 . 但 
是 , 此 方法 需要 大 量 的 计算 . 这 个 方法 仅仅 是 对 均值 部 分 进行 稳健 统计 推断 , 方差 
部 分 由 于 使 用 的 是 最 大 似 然 估计 , 所 以 没有 稳健 性 . 

下 面 研究 估计 的 渐 近 性 质 . 
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2. 渐 近 性 质 

为 了 研究 上 述 估 计 的 大 样本 性 质 , 类 似 于 He 等 (2005) 和 Sinha(2004), 除了 上 
几 节 的 一 些 正则 条 件 外 , 还 需要 如 下 条 件 : 

条 件 (A.13) œ> 人 U;)) > inf v(m; (9, U:)) > 0 以 概率 1 成 立 ， 

go) 存在 有 界 的 三 : 阶 导数 ， 并 且 uC) 存在 有 界 的 两 阶 导数 

条 件 (A.14) ”对 于 充分 大 的 n, k (MRM) EF, MT QoM (kn/n) 的 特 
征 根 有 界 且 不 为 零 ， 其 中 ， No = diag{ i}, 204 = —E | 2;(U0,)]- 

条 件 (A.15) ”条 件 (A11) 成 立 , 并 且 有 


me -> K*, “3% -, 5", (4.3.8) 


其 中 , K* 和 S* 是 正定 矩阵 , 8 = 二天 * B{(E) Aoi A31 hos)(Es)), 40:45: 


uly 


WE io eee ak 二 Doit, X* =(I- P*)X, P*=M(M™" QM) M" Qo. 
i=1 


在 上 述 的 条 件 下 , 得 到 了 稳健 估计 6 和 f ROTHER, 表示 为 如 下 的 定理 : 
定理 4.3.1 假定 条 件 (A.1) ~ 条 件 (A.2), RH (A.6)(1) 和 条 件 (A.13) ~ 条 
件 (A.15) 成 立 如 果 节 点 数 kn x n/t), g 


一 2y oant) - — foltij))? = Op(n7?/ C+D), (4.3.9) 
m = j= 
并 且 
Vn(Brm — Bo) —* N(0, Vg); (4.3.10) 


其 中 , Vh = (K*) SRK), eK fe S* 的 定义 见 式 (4.3.8), -+ 表示 依 分 
布 收敛. 

关于 定理 4.3.1 的 详细 证 明 可 以 参考 文献 (Qin and Zhu, 2007)， 类 似 于 定理 
4.2.2, 能 够 获得 渐 近 协 方差 阵 VE 的 相合 估计 , 具体 可 以 参见 文献 (Qin and Zhu, 
2007, 定理 2). 

定理 4.3.1 的 结论 同 定理 4.2.1 和 定理 4.2.3 非常 类 似 , 都 获得 了 参数 和 非 参数 
成 分 估计 的 最 优 收 敛 速度 . 但 是 , 三 个 定理 所 讨论 的 模型 和 对 统计 问题 的 出 发 点 不 
一 样 . 定理 4.2.1 和 定理 4.2.3 主要 研究 了 连续 型 和 离散 型 纵向 数据 边际 模型 的 稳 
健 估计 , 参数 6 和 非 参数 f(-) 具有 总 体 效应 的 解释 . 同时 两 者 也 有 区 别 , 前 者 没有 
考虑 个 体内 部 的 协 方 差 阵 , 计算 简单 ; 后 者 的 估计 方法 更 加 有 效 . 定理 4.3.1 主要 研 
究 了 混合 模型 的 参数 和 非 参数 的 估计 性 质 , 参数 和 非 参数 有 个 体 效应 的 解释 . 
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3. 实例 分 析 


GUIDE 数据 分 析 ( 续 ). 为 了 进一步 说 明 混合 模型 的 稳健 方法 的 可 行 性 , 应 用 
广义 部 分 线性 混合 效应 模型 去 拟 合 GUIDE 数据 , 并 采用 稳健 方法 进一步 进行 分 析 ， 
希望 能 够 有 进一步 的 发 现 . 

对 该 数据 集合 建立 下 面 的 部 分 线性 混合 效应 模型 ; 


logit( mij) = ziB 十 fo(AGE,;) + Ui, 


其 中 , wi © N(0,07), 其 他 符号 的 含义 同 1.2.2 小 节 相同 . 

该 模型 与 Sinha(2004) 建立 的 模型 的 差异 是 假定 了 AGE 与 响应 变量 的 均值 之 
间 的 非 线 性 关系 , 与 上 一 节 模 型 的 差异 在 于 加 入 了 随机 效应 考察 医疗 中 心 内 部 观察 
值 的 相关 性 . 节点 和 样 条 的 选取 同上 一 节 一 致 . 由 于 在 这 个 例子 中 , 随机 效应 是 一 
维 的 , 先 用 数值 积分 方法 计算 条 件数 学 期 望 并 获得 估计 (robust), 然后 利用 MCMC 
方法 也 计算 了 估计 (RMCFS). 表 4.4 给 出 了 参数 估计 的 结果 , 并 列 上 一 节 的 结果 
(用 H, F&Z 表示 ) 和 Sinha (2004) 估计 的 结果 作为 比较 ; 非 参数 的 估计 同上 一 节 类 
似 , 没有 给 出 . 


#44 GUIDE 数据 的 回归 参数 估计 ( 续 ) 


Robust RMCFS Nonrobust H,F&Z Sinha 
RUB -~ - = - 一 3.593(0.952) 
GENDER. —1.594(0.603) —1.590(0.608) —1.159(0.658) —1.57(0.61) —1.298(0.632) 
AGE(10 年 ) 一 一 -= —1.072(0.623) 
LAYACC 0.668(0.149) 0.668(0.150) 0.615(0.136) 0.59(0.14) 0.506(0.116) 
SEVERE 0.826(0.464) 0.820(0.467) 1.094(0.451) 0.67(0.40) 0.827(0.373) 
TOILET 0.132(0.099) 0.132(0.100) 0.082(0.089) 0.27(0.10) 0.240(0.110) 
方差 1.984(1.353) 1.957(1.309) 1.702(1.231) - 1.861(1.414) 


由 表 4.4 可 以 发 现 稳健 估计 与 非 稳健 估计 在 数值 上 存在 一 定 的 差异 , 似乎 可 以 
推测 数据 中 存在 异常 点 或 强 影响 点 . 另外 , 在 0.05 的 显著 水 平 上 , 由 稳健 方法 得 到 
的 GENDER 和 DAYACC 的 效应 是 显著 的 , 与 边际 模型 的 分 析 的 结果 一 致 . 而 非 稳 
健 方法 得 到 的 DAYACC 和 SEVERE 的 效应 是 显著 的 . 采用 稳健 方法 得 到 的 检验 
Ho:0? =0 vs Hi: 0? >0 的 p EA 0.0712, 处 于 显著 的 临界 状态 , 各 个 医疗 中 心 
之 间 存 在 差异 的 证 据 得 到 了 发 现 , 但 是 还 不 够 充分 . 而 非 稳健 方法 的 p 值 为 0.123， 
不 认为 医疗 中 心 之 间 有 差异 . 这 些 说 明了 稳健 方法 的 必要 性 . 

我 们 也 计算 了 随机 的 RMCFS 估计 . 正如 McCulloch (1997) 指出 的 , 为 了 使 
MCMC 估计 达到 小 数 点 后 3~4 位 的 精度 , Monte Carlo 样本 量 N 需要 非常 大 . 
此 , 在 本 节 分 析 的 例子 中 , 为 了 更 高 的 精度 , Monte Carlo 样本 量 N 取 为 2000, 并 且 
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和 迭代 步 数 取 为 200. ARIER 4.4 中 . 可 以 发 现 , 随机 的 RMCFS 估计 与 精确 ( 利 
用 数值 积分 计算 ) 的 估计 非常 接近 . 关于 个 体内 部 的 相关 性 , 我 们 又 一 次 没有 获得 
显著 性 的 结果 . 这 主要 是 方差 成 分 的 估计 没有 利用 稳健 方法 . 下 面 一 节 将 在 利用 均 
值 和 方差 部 分 的 同时 , 用 稳健 估计 方法 再 一 次 分 析 这 组 数据 . 


4.3.2 ”广义 部 分 线性 混合 效应 模型 的 稳健 化 似 然 推断 


4.3.1 小 节 仅 讨论 了 模型 均值 部 分 的 稳健 统计 推断 问题 . 若 在 研究 的 实际 问题 
中 , 主要 感 兴趣 的 是 均值 部 分 且 相 关 程 度 不 高 , 这 个 方法 是 相当 有 效 的 . 但 是 , 若 同 
时 对 均值 部 分 和 方差 部 分 都 感 兴趣 的 话 , 则 必须 寻找 另外 的 方法 . 在 这 一 节 , 基于 
“稳健 化 的 似 然 函数 ", 同时 构造 了 均值 分 量 和 方差 分 量 的 稳健 估计 . 


1. 稳健 化 的 惩罚 对 数 似 然 函 数 


假定 数据 有 m 个 个 体 , 每 个 个 体 有 ni 次 观察 , 响应 变量 yi 在 随机 效应 U; 给 
定 的 条 件 下 服从 式 (4.3.1) MA (4.3.2) 的 指数 族 分 布 , Ui 为 随机 效应 且 iid 服从 于 
正 态 分 布 N(0, D), 其 余 的 符号 与 上 一 节 的 含义 相同 . 为 方便 起 见 , 仅 考虑 % = 1. 

在 这 一 节 中 , 利用 P 样 条 逼近 未 知 的 函数 f(.). P 样 条 是 光滑 样 条 的 推广 , 样 
条 基 和 息 罚 项 是 P 样 条 的 主要 构成 . P 样 条 可 以 采用 任意 的 样 条 基 (如 B 样 条 基 
和 截断 寡 函 数 基 等 ) 和 答 罚 项 , 因此 , 具有 很 大 的 灵活 性 . 由 于 P 样 条 采用 固定 的 
节点 数 , 因此 , 计算 快速 方便 . 同时 , 在 理论 证 明 上 , 由 于 节点 数 固 定 , 因此 , 可 以 在 
参数 模型 的 框架 下 研究 有 关 参 数 的 渐 近 性 质 , 而 回归 样 条 的 节点 数 选取 随 着 样本 量 
的 增加 而 趋 于 无 穷 , 有 关 渐 近 性 质 的 讨论 要 复杂 得 多 . 

对 于 未 知 非 参数 函数 f, 采用 以 BERERA P 样 条 逼近 ， 


f(t) = wT (tha, 


其 中 , x(t) = (Bi (t),---, Bn (t))” 为 BRRERRERHN ME, a 是 回归 系数 . 对 
于 连续 、 单 调 或 单 峰 的 函数 , 一 般 取 5 ~ 10 个 节点 , 以 样本 的 等 分 位 点 作为 节点 . K 
用 B 样 条 基 函 数 为 基 主 要 是 为 了 使 后 面 估计 的 计算 更 加 稳定 . 于 是 mi; = gliz) ~ 
LEB +n(tij) a+ zd. W 0 = (BT,aT,YT)T. 当然 , 估计 非 参 数 函 数 f(t) 还 有 很 
多 其 他 的 非 参 数 方 法 , 如 回归 样 条 方法 和 核 方法 , 它们 分 别 需 要 选择 节点 数 和 窗 宽 . 
而 P 样 条 方法 主要 考虑 惩罚 项 中 光滑 参数 的 选择 , 以 达到 对 非 参数 函数 比较 好 的 
估计 . 带 有 惩罚 项 是 P 样 条 方法 的 重要 特点 , P 样 条 中 的 惩罚 项 将 在 后 面 引 入 . 

假定 f(t) 已 知 , 类 似 于 模型 (4.3.1) 和 模型 (4.3.2) 是 一 个 参数 模型 , 此 时 第 i 
个 个 体 对 数 似 然 函 数 为 


Li(0) = tog | exp{y05 — (03) + dvs) } OU )AU, (4.3.11) 
j= 
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其 中 , 5 表示 U: 的 密度 函数 , RUF Mills 等 (2002), 对 式 (4.3.11), 分 别 从 两 个 方 
面 考虑 减少 响应 变量 和 协 变量 中 可 能 存在 的 异常 点 对 估计 的 影响 . 首先 , 对 响应 变 
量 中 的 异常 点 进行 稳健 , 假设 yy 是 异常 点 , 考虑 对 其 进行 修正 , 即 用 wj 一 3;; 来 
代替 y;;, 从 而 达到 减少 异常 点 yi; 影响 的 目的 . 在 yi; 太 大 时 , 通过 3;; 适当 减少 
yij; 反 过 来 , 当 wj AAD, 通过 3;; 适当 增加 yj; 其 次 , 对 协 变量 中 异常 点 的 稳健 ， 
通过 对 似 然 函 数 加 权 , 减少 协 变量 中 异常 点 所 对 应 的 观察 值 对 似 然 函数 的 贡献 . 基 
于 上 述 两 个 方面 对 似 然 函 数 进 行 修正 , 可 以 定义 广义 模型 下 的 稳健 化 的 对 数 似 然 函 
数 为 


L? (0) = log f ICSC — Dij )Oij — c(0i;) + d(yi; — Vij) } "H (Ui)dU:, (4.3.12) 
j=1 


其 中 ， Vij 选 为 (ri |—c)sign(rij)I¢r,;|>c)> cE (1, 2] 为 常数 ， 作用 类 似 于 前 面 Huber PR 
BOHRI, Iqro 是 示 性 函数 , ri = ion Pii mij = 97 (aE B+ f (tis) + zd Ui). 


1/2? 

在 具体 计算 时 , 随机 效应 U; 可 以 通过 文献 (Yau and Kuk, 2002) 中 线性 混合 效应 模 
型 下 随机 效应 的 预测 方法 或 者 MCMC 的 方法 进行 预测 . 权 函 数 wi; 取 与 1.3.1 小 
节 相 同 的 权 函 数 . 注意 到 式 (4.3.12) 并 不 是 一 个 似 然 函 数 , 只 是 似 然 函 数 的 稳健 版 
本 . Mills 等 (2002) 只 给 出 了 边际 分 布 指定 的 广义 线性 混合 效应 模型 中 两 点 分 布 情 
形 下 稳健 化 的 似 然 函数 的 构造 , 并 且 采 用 的 调整 响应 变量 的 权 函 数 在 区 间 [0,1) 取 
值 , 只 适用 于 两 点 分 布 . 而 式 (4.3.12) 可 以 应 用 于 任意 广义 混合 效应 模型 , 采用 的 权 
函数 95 和 wi; 与 Mills 等 (2002) 均 不 相同 . 

像 通 常 的 稳健 程序 一 样 ， pcan dh 因而 对 式 (4.3.12) 进行 纠 


偏 . 假定 纠偏 函数 on(6) 满足 Ž an(0) = 2 Ex SLR (0), 可 以 得 到 如 下 经 过 纠偏 的 
稳健 对 数 似 然 函数 : 


CL*(@) = > LE(0) — an(@), (4.3.13) 


i=1 


其 中 , an (A) = 2 a; (9). 


由 于 模型 中 含有 非 参数 函数 f(t), 采用 了 PAE f(t), 因此 , 结合 上 面 参 
数 模型 下 稳健 化 的 似 然 函 数 , 在 部 分 线性 混合 效应 模型 下 , 考虑 如 下 的 稳健 化 的 惩 
罚 对 数 似 然 函 数 : 

PL*(@) = SCLC) - 5mra" Ka, (4.3.14) 


其 中 , K 为 对 角 和 矩阵 , 由 文献 (Eiler ai Marx, 1996), 在 采用 B 样 条 基 时 , K 为 带 形 
和 矩阵, 具体 表达 式 参 见 文 献 (Eiler and Marx, 1996). 最 大 化 式 (4.3.14) 得 到 的 8 Fh 
计 就 是 所 讨论 的 稳健 最 似 然 估计 , 记 为 rme, 即 Bruce, formelt) = nT (t)ârmeE, 


?RMLE. 
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光滑 参数 和 的 选择 对 获得 一 个 好 的 非 参数 函数 估计 相当 重要 . 在 文献 中 有 大 
量 选 取 光 滑 参 数 的 方法 , 但 是 没有 一 种 是 能 够 阻止 异常 点 影响 的 方法 . 在 文献 (Qin 
and Zhu, 2009a) 中 首次 提出 了 稳健 的 GCV 方法 . 在 入 的 取 值 范围 的 格子 点 上 , 最 
小 化 稳健 化 的 GCV 得 分 函数 ， 选取 光滑 参数 À, 

= 2 > {wis (yij — Vij — Rij) }? 
GCV RA) = -一 一 一 一 一 一 一 一 一 一 ， (4.3.15) 
- “(4 ()) 

其 中 , fiij =g) = g (DES, +220:), Ò; 是 随机 效应 U: 的 某 个 估计 , 如 Yau 
和 Kuk (2002) 的 预测 或 者 通过 MCMC 方法 获得 的 预测 估计 . H(A) = G+ (I - 
GA WX{WXTA TI- GA WX} WX)TAT I- G),G = APM 
(MTAM + nAK)-1MTA'?, A = ATV'A, A = diag{Ai,.…. ,Am}, Aj = 
diag{jaa… s hinh BC) 表示 uM) 的 一 阶 导数 并 在 Die + zU; 处 计 值 , V = 
diag{V1,---,Wm}, Vi = Vi{ui(O,U;)} = diag{v(uir),- ,vpins)}, Xi = (Zi, ， 
Zin, )t, X = (XI,. + Re. oh 下 类 似 地 , 用 Dij 和 wiz 阻止 在 协 变 量 和 应 变量 异常 的 
影响 . 由 于 稳健 化 的 GCV 函数 阻止 了 异常 点 的 影响 , 因而 用 稳健 化 的 GCV 函数 
获得 的 光滑 参数 估计 能 够 减少 异常 点 的 影响 , 进而 能 够 获得 非 参 数 函 数 一 个 好 的 估 
计 . 这 在 后 面 的 模拟 计算 和 实际 数据 例子 分 析 中 得 到 了 证 实 . 当 bi =0 和 wi; =l, 
GCVR(A) 就 是 通常 意义 上 的 GCV 得 分 函数 . 

在 后 面 将 看 到 , 基于 稳健 化 的 惩罚 似 然 函 数 (4.3.14), 不 仅 得 到 了 类 似 于 上 一 
节 中 关于 均值 分 量 的 带 有 “稳健 化 的 条 件 期 望 ”形式 的 稳健 估计 方程 , 同时 还 得 到 
了 关于 方差 分 量 的 带 有 “稳健 化 的 条 件 期 望 ”形式 的 估计 方程 . 估计 方程 带 有 “ 稳 
健 化 的 条 件 期 望 ” 是 与 上 一 节 主 要 的 不 同 之 处 , 也 是 对 上 一 节 的 稳健 方法 , 特别 是 
对 方差 分 量 稳健 估计 的 重要 改进 . 

2. 稳健 估计 的 求解 

为 了 给 出 求解 估计 的 迁 代 公式 ， 首 先 引入 几 个 记号 , 记 9 = (07,07), 其 中 ， 
81 = (B7, aT)", 02 = y. 将 式 (4.3.14) 分 别 对 0, 和 6。 求 偏 导 可 以 得 到 

Gn,o,(8;A) = 》 Ge,i(0; A) 


i=l 
m 0 

=) Ge,i:(0)— pxI 
2 Go, (0) ( n\Ka ) 


m 
= 》 [Eb {DI Wi AV; (Yi — vi ~ pi)} — axe] 


.114 . 第 4 章 纵向 数据 模型 的 稳健 推断 


Gn,o, (8) = (Gn,g21 (0), a Gn,02 (@))*, 
其 中 ， 


m 


Gn62,,(8)= >. Goa i(0) 


i=1 


as poz 
=> [Eim f" (= 1) + Oy. Us) tn), s=1,---,k, 


Ei mI (U) 表示 | Ofori Us Foy = Soo S061 Fo HE. 


Fau: = [[lexpt (vis — 5 )0is — e(8is) + d(yi; — Vig) H, 
j=l 


fy = [Tents 一 95)05 — (Big) + ad(Yi; — Big) JJ" O(U)AU;, (4.3.16) 

j=l 
Siuo Fj, 分 别 表示 条 件 分 布 和 边际 分 布 的 密度 函数 的 稳健 版 本 . 称 Eg y, (Ui) 为 
9(Ui)“ 稳 健 化 的 条 件 期 望 ”， 所 ,为 yi 给 定 下 随机 效应 U, “稳健 化 的 条 件 密度 
Pa”. 虽然 fe, 本 身 并 不 是 一 个 真正 意义 上 的 密度 函数 , 但 是 不 影响 进行 稳健 
的 统计 推断 . 记 Gn(0; 入) = (Gae,(6; A)T, Gno,(8)7)", Bi = DI WiAiVi!(Y; — 


Di — Hi), 
tr (==) 十 ute U; 
C;(0,U;) = 
t (215) + ure Oy; 
进一步 , 对 G,(9; 入) KSA 


0 

Gn(0;N= X G:A) =) 

00 Oe E ð Go, (0) 
= = 62,4 


302 


ð 0 
m gg, 0819 à) B02 Go,i(0; r) 
Goee, i(0) 


a 
30; 
a ae 

20, aq~Ge.,i(8; A) =-Eb y, [DEW AiV, AiD;] — AK* 


+EG,\y,((Bi — \K*) BY?) 
— [EG jy, (Bi — AK”) [Eby (Bi) ~ ai,e,, 


0 * .. 
gg, (0; A) = prilw [BiCi] 一 Qi,91,9>， 
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59; G0, i(@) = Eby: Fxg |-3 3 Fu, ip [Ci CC 了 + 到， igs [Ci EÑ, j [CT), (4.3.17) 
0 K 
给 定 初 值 9 , 对 固定 的 A, 采用 Newton-Raphson HEAR HEH E AY 
健 估计 , 迭代 公式 如 下 : 


其 中 ， K* = ( Opxp 0 


_1 
a = 6 — | TEx] Gnozo: (4.3.18) 


为 计算 迭代 公式 (4.3.18) 中 的 “稳健 化 的 条 件 期 望 ”, 需要 获得 随机 效应 Di 在 
yi 下 的 “稳健 化 的 条 件 分 布 ", 即 Uyi 的 “稳健 化 分 布 ”. 而 Uily; 的 稳健 化 分 布 
一 般 难 以 计算 , 因为 它 的 计算 需要 先 有 yi 稳健 化 的 边际 分 布 , 而 yi 稳健 化 的 边际 
分 布 是 通过 将 (y;, Ui) 稳健 化 的 联合 分 布 中 的 随机 效应 U: 积分 积 去 求 得 的 , 如 果 
Ui 是 高 维 随机 变量 , 将 涉及 一 个 高 维 积分 问题 , 这 通常 难以 处 理 . 

Sinha(2004) 采用 Metropolis 算法 从 UY 中 产生 随机 观察 值 , 然后 利用 Monte 
Carlo 方法 近似 条 件 期 望 ， Metropolis 算法 不 需要 Y 的 边际 分 布 , 从 而 可 以 避免 高 
维 积分 问题 . 而 这 里 提出 “稳健 的 Metropolis 算法 ", 通过 上 面 给 出 的 稳健 化 的 似 然 
函数 计算 Metropolis 算法 中 的 接受 概率 函数 , 从 而 得 到 “稳健 的 接受 概率 函数 ”. 由 
于 采用 稳健 化 的 似 然 函数 , 因此 , 限制 了 数据 中 的 异常 点 和 强 影响 点 对 该 接受 概率 
函数 的 影响 . 这 个 抽样 方法 明显 不 同 于 1.3.1 小 节 的 方法 . 在 这 里 , 对 后 验 分 布 进行 
了 稳健 化 , 得 到 了 稳健 的 后 验 分 布 ulu: 通过 模拟 和 实际 例子 分 析 表 明 , 这 种 稳健 
方法 同时 对 均值 和 方差 成 分 都 起 到 了 稳健 化 作用 . 

在 Newton-Raphson {QFE FINDA Metropolis 算法 来 计算 条 件 期 望 的 Monte- 
Carlo 估计 . 具体 算法 可 描述 如 下 : 

(1) m = 0, 选择 0%, 初 值 的 选取 可 以 采用 一 般 的 MCNR 估计 ; 

利用 Metropolis 算法 ， 从 稳健 化 的 分 布 fiş (UIY;, o™) 中 抽取 观察 值 
UD,…. UM, 抽取 方法 与 1.3.1 小 节 相 似 ， 不 同 之 处 是 用 pe 代替 


fuy (UY 0°). 进一步 计算 rt = Sie Bis = g(a p B+h (tiy +250.) 其 中 ， 


Ui=1/N 二 UP. 于 是 权 函 数 为 91 = (re | — osiga rt) 


同时 使 用 这 些 观察 值 去 计算 条 件 期 望 的 Monte Carlo 估计 , 步骤 如 下 : 
(3) 通过 下 面 的 表达 式 计算 girth), 


edad I>c)? 


一 】 


N N 
1 a , 
omer) — afm) 一 N È gg on (8™, UM; 8) x >> Gn(0™, U0; 9); 
i=l i=1 
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(4) 重复 步骤 (2), (3), 直到 估计 收敛 . 把 8 = omt 作为 8 的 稳健 MCNR 
估计 . 

由 此 同时 得 到 了 稳健 估计 BrmLE, famLE(t) = rrT(t)GnwMre 和 方差 分 量 的 稳 
健 估计 Arme, 而 Sinha (2004) 仅 得 到 了 广义 线性 混合 效应 模型 下 回归 参数 的 稳健 
估计 . 虽然 Sinha (2004) 也 给 出 了 方差 分 量 的 “稳健 估计 ”, 但 是 实际 稳健 效果 并 不 
好 . 主要 原因 是 估计 方差 分 量 时 , 也 需要 求解 一 个 带 有 条 件 期 望 的 估计 方程 , 虽然 
对 均值 分 量 采用 了 稳健 估计 , 但 是 由 于 数学 期 望 中 含有 响应 变量 和 协 变量 , 其 中 的 
异常 点 仍然 会 对 该 条 件 期 望 会 产生 影响 , 从 而 造成 相应 的 方差 分 量 的 “稳健 估计 ” 
效果 不 好 . 具体 来 说 就 是 条 件 期 望 中 的 密度 函数 没有 被 稳健 化 . 


3. 稳健 估计 的 渐 近 性 质 
为 了 给 出 上 述 估计 的 渐 近 性 质 ， 首 先 给 出 几 个 记号 . 记 Gn(6) = (Gno,(8)", 
Gn ,02 (0)T)T , Gn 0; (9) = 二 Go,, i(8). G,,(@ ) 与 Gn(0; À) 类 似 ， 但 是 不 包含 nAaT 

Ka 这 一 项 . 进 一 步 假定 如 下 : 

(C.1) 参数 空间 O 为 紧 集 , 对 任意 的 9 € O, -Gn(9) 以 概率 1 一 致 收敛 到 函 
数 G(9), 并 且 G(8) 有 唯一 零点 80 €O. 

(2+ 

(C.2) sup E | J forty, Ui < co, 并 且 存 在 6 > 0, 使 得 sup E\Eu=y:||Uill? 
\(2+8) < ae bd 

(C.3) inf v(i (25B + f(ti;) 十 ZUi)) > 0 以 概率 1 成 立 , 并 且 g) 存在 有 
界 二 阶 连续 的 导数 . i 

(C.4) (1) 存在 90 的 一 个 邻 域 C(6o), Gn(O) 以 概率 1 有 连续 的 导 函 数 , 并 且 对 
任意 的 8 € C(6o)， LGn(0) 以 概率 1 一 致 收敛 到 非 随 机 和 矩阵 G(9) 且 G(60) 非 奇 
异 , W 2 = G(6o)， 其 中 ， 


0 ð 
ta e 1 m 50, 7819) gg, 7949) 
n nl Uem TA 0 


ð 
i=l A A 
-Goesi(0) 有 -Gosa(g) 


8o 


以 概率 1 收敛 


Goesi(9)Goei(8)TI Ge,i(9)Goei(9) J lo=09 


ORES? ( Go, s(8)Go,(@)" Go, s(0)Go,s(8)" 


到 S*. 

条 件 (C.1) 和 条 件 (C.4) 主要 用 于 证 明 估 计 的 相合 性 ; BARE (C.1) MRE 
(C.4), 条 件 (C.2) 和 条 件 (C.3) 用 于 均值 分 量 和 方差 分 量 稳健 估计 渐 近 正 态 性 的 证 
BA. 特别 地 , Yuan 和 Jennrich(1998) 曾 给 出 类 似 于 条 件 (C.1) MAE (C.4) HAE. 
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由 上 述 条 件 , 可 以 得 到 下 面 的 定理 : 

定理 4.3.2 % 入 = o(1), 假定 条 件 (C.1) ~ HH (C.4) 成 立时 , GRMLE 以 概 
率 1 收敛 到 Oo. 

定理 4.3.3” 当 入 二 0o(1/VNn), 条 件 (C.1) ~ 条 件 (C.4) 成 立时 有 


Vn(OrMmLE ~ 90) 一 N(0, RSR), (4.3.19) 


其 中 , 2 和 S* 定义 在 条 件 (C.4) P. 

上 述 两 个 定理 的 条 件 和 证 明 方 法 非常 类 似 于 文献 (Yu and Ruppert, 2002; Yuan 
and Jennrich, 1998), 但 是 我 们 的 模型 要 复杂 . 

由 定理 4.3.2 得 到 了 均值 分 量 和 方差 分 量 稳健 估计 相合 性 的 证 明 ， 而 由 定理 
4.3.3 获得 了 估计 的 渐 近 分 布 , 可 以 用 来 对 均值 分 量 和 方差 分 量 作 统计 推断 ， 如 构 
造 置信 区 间 和 进行 假设 检验 等 ， 关于 上 述 两 个 定理 证 明 可 参见 文献 (Qin and Zhu, 
2009a). 


4. 经 验 研究 


为 了 研究 稳健 似 然 方 法 的 有 限 样 本 性 质 , 利用 计算 机 模拟 方法 和 一 个 实际 例子 
来 论证 方法 的 有 效 性 和 可 操作 性 . 首先 , 进行 模拟 研究 . 

1) 模拟 研究 

考虑 如 下 Poisson 部 分 线性 混合 模型 : 


Vijlbi ~ independent Poisson(j;), t= 1,. ,mMm, j7=1,-++, mi, 
Mij = log(uiz) = Bai; + sin(ntiy) + bi, bi ~ N(0,0°), (4.3.20) 


其 中 , m = 100, nj = 4, 8 =1, o? = 0.25, zij 独立 地 从 U(-1, 1) 抽取 , ti; 从 U(0, 1) 
抽取 , FF AAG zi 独立 . 

在 模拟 中 , 选取 在 权 函 数 wi; 中 的 5 为 1, 在 oi; 中 的 常数 c 为 2, 总 共有 500 
个 数据 集 从 模型 (3.20) 中 产生 . 利用 样本 分 位 数 的 10 个 固定 节点 的 4 阶 B 样 条 
函数 作为 基 , 按照 RGCV 准则 在 [-6,4] 中 , 在 lq(A) 的 20 个 格子 点 上 选取 A 的 值 . 
假如 对 模型 没有 其 他 信息 , 按照 文献 (Yu and Ruppert, 2002), 可 以 在 更 加 广泛 的 范 
Fl [10-5,107] 上 选取 A 的 值 . 

为 了 考查 稳健 估计 的 有 效 性 ， 也 对 数据 进行 扰动 . 研究 以 下 5 种 异常 点 的 
情况 : 

P1. 随机 抽取 8 个 zi; 用 xi; — 2 KF; 

P2. 随机 抽取 16 个 zi 用 zi; 一 2 代替; 

P3. 随机 抽取 8 个 Yij 用 Yij 十 10 代替 ; 

P4. 随机 抽取 16 个 yi; 用 y;; + 10 代替 ; 
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P5. 随机 抽取 8 个 xi; FA xi; — 2 代 蔡 ; 再 抽取 另外 8 个 yi; 用 yi; + 10 代替 . 

在 模拟 中 , 计算 了 稳健 估计 we 和 Jamie 的 偏差 、 均 方 误差 以 及 fain 的 
积分 均 方 误差 (IMSE), 并 且 同 非 稳健 估计 的 进行 比较 , 把 结果 列 在 表 4.5 和 表 4.6 
中 . 表 4.5 给 出 了 数据 中 存在 扰动 和 没有 扰动 的 情况 下 , 计算 得 到 的 关于 稳健 估计 
和 非 稳健 估计 , 以 及 利用 Qin 和 Zhu (2007) 的 方法 得 到 的 结果 . 从 表 4.5 中 可 以 发 
现 当 没 有 异常 点 时 , 稳健 估计 得 到 的 偏差 比 非 稳健 估计 得 到 的 要 大 一 些 . 这 时 , 事 
实 上 , 当 没有 异常 点 时 , 利用 了 稳健 方法 , 由 此 产生 的 一 个 小 的 赔偿 , 所 以 一 个 好 的 
统 稳健 计 和 推断 方法 在 使 用 之 前 , 一 些 对 异常 点 的 诊断 是 非常 推荐 的 , 而 当 数 据 中 
存在 异常 点 时 , 非 稳健 估计 的 偏差 就 显著 地 变 大 . 


表 4.5 模型 (3.20) 的 500 次 模拟 结果 


p 02 
IMSE BIASI MCSEI MSEI BIAS2 MOSE2 MSE2 
NR 0.0166 0.0019 0.0691 0.0048 20.0045 0.0533 0.0029 
Np Ù R 0074 ooma 0.0706 0.0052 -0.0062 0.0545 0.0030 
NR 0.0137 0.0025 0.0690 0.0048 -0.0025 0.0537 0.0029 
QEZ R 0.0139 0.0025 0.0690 0.0048 —0.0031 0.0537 0.0029 
NR 0.0192 —0.1439 0.0784 0.0269 0.0053 0.0577 0.0034 
ii New Ro 0.0169 —0.0438 0.0727 0.0072 —0.0059 0.0570 0.0033 
Qaz NR 00166 -0.1425 0.0784 0.0264 0.0072 0.0583 0.0034 
R 0.0146 -0.0624 0.0719 0.0091 0.0160 0.0631 0.0042 
NR 00255 -0.2461 0.0763 0.0664 0.0119 0.0558 0.0033 
py yew R 0.0200 —0.0957 0.0739 0.0146 0.0047 0.0549 0.0030 
NR 0.0227 0.2445 0.0763 0.0656 0.0135 0.0559 0.0033 
QEZ Ro 00158 —0.1185 0.0739 0.0195 0.0313 0.0632 0.0050 
NR 0.0311 -0.0736 0.0840 0.0125 0.0308 0.0559 0.0041 
pa N R oo87 o0032 0.0742 0.0055 0.0004 0.0571 0.0033 
ouz NR 00265 -00733 0.0845 0.0125 0.0325 0.0563 0.0042 
R 0.0239 —0.0152 0.0773 0.0062 0.0770 0.0686 0.0106 
NR 0.0585 —0.1454 0.0958 0.0303 0.0581 0.0554 0.0064 
pa New R 00249 -0.0066 0.0778 0.0061 0.0092 0.0561 0.0032 
ouz NR 00520 —0.1454 0.0958 0.0303 0.0590 0.0556 0.0066 
R 0.1623 —0.0317 0.0881 0.0088 0.3334 0.3419 0.2280 
Neg NR 00418 -02026 0.0919 0.0495 0.0386 0.0549 0.0045 
P5 R 0.0214 —0.0515 0.0781 0.0087 0.0018 0.0555 0.0031 
oaz NR 00370 -02019 00914 0049) 0.0399 0.0554 0.0047 
R 0.0328 —0.0750 0.0822 0.0124 0.1152 0.0906 0.0215 


注 : R 为 稳健 方法 , NR 为 非 稳健 方法 , NP 为 未 扰动 , P 为 有 扰动 
可 是 主要 兴趣 是 当 出 现 异常 点 时 我 们 的 稳健 方法 的 表现 . K 4.5 也 显示 当 没有 
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异常 点 时 , 稳健 估计 没有 产生 严重 的 偏差 和 很 大 的 MSE. 与 之 对 应 , 出 现 异常 点 时 
对 非 稳 健 估 计 产 生 的 严重 的 偏差 和 大 的 MSE. 更 进一步 , 前 两 种 协 变量 的 异常 点 主 
要 影响 回归 均值 部 分 , 而 对 方差 部 分 o? 几乎 没有 影响 , 后 两 种 关于 应 变量 的 异常 
点 对 均值 和 方差 的 估计 都 有 影响 . 从 偏差 和 均 方 误差 MSE 来 看 , 均值 和 方差 的 稳 
健 估计 都 有 很 好 的 表现 . 类似 的 发 现 也 能 从 最 后 一 种 协 变 量 和 应 变量 同时 有 异常 
点 的 情况 得 到 . 模拟 结果 显示 我 们 的 稳健 方法 有 非常 好 的 表现 . 特别 地 ,由 于 方差 
成 分 由 稳健 的 估计 方程 求 得 , 方差 成 分 的 稳健 估计 显示 了 比较 好 的 稳健 性 . 

此 外 , 我 们 也 同 1.3.1 小 节 的 方法 进行 了 比较 , 把 1.3.1 小 节 的 估计 记 为 QZ. 在 
计算 QZ 估计 时 , 我 们 使 用 样本 的 分 位 数 为 节点 , 节点 数 为 3 的 4 阶 B 样 条 . 当 没 
有 异常 点 时 , 新 的 估计 与 QZ 估计 相 比 有 大 的 偏差 , 这 是 由 于 为 了 计算 分 别 , 在 计 
算 时 忽略 了 纠偏 项 . 可 是 当 有 异常 点 时 , 新 估计 有 比较 好 的 表现 . 回归 参数 8 和 非 
参数 函数 f(.) 的 估计 与 QZ 估计 相 比 有 小 的 偏差 和 MSE. 更 进一步 分 析 , 由 于 QZ 
的 方差 估计 是 最 大 似 然 估 计 , 没有 稳健 性 , 对 异常 点 是 敏感 的 . 特别 是 在 有 第 4 种 
异常 点 的 情况 下 , 新 估计 明显 优 于 QZ 估计 . 由 于 在 文献 (Sinha, 2004) 和 1.3.1 小 
节 的 稳健 估计 方程 中 , 条 件数 学 期 望 是 被 异常 点 严重 影响 的 , 这 导致 了 这 些 估计 有 
很 差 的 表现 . 相应 地 , 新 的 估计 方法 的 稳健 估计 方程 (3.18) 引入 了 稳健 的 条 件数 学 
期 望 , 由 此 得 到 了 比较 好 的 表现 . 

更 进一步 会 发 现 , 当 应 变量 有 异常 点 时 , 回归 系数 8 的 新 的 稳健 估计 与 QZ 估 
计 相 比 有 小 的 标准 差 , 即 有 高 的 效率 , 这 个 现象 在 第 4 种 异常 点 时 特别 明显 . 注意 
到 在 这 些 状况 中 , 方差 o? 的 新 的 稳健 估计 与 QZ 估计 相 比 有 小 的 标准 差 和 小 的 
MSE. 这 说 明 一 个 好 的 方差 成 分 的 估计 能 够 提高 均值 部 分 估计 的 效率 . 

E 4.6 比较 了 分 别 用 稳健 的 GCV 和 非 稳健 的 GCV 选取 光滑 参数 A 后 , 非 参 
数 函数 f(-) 估计 的 IMSE. 结果 表明 当 协 变量 有 异常 点 时 , 用 稳健 的 GCV 获得 的 
估计 的 IMSE 略微 大 于 非 稳 健 的 GCV, 这 是 因为 这 种 异常 点 主要 影响 参数 3 部 分 
的 估计 . 可 是 当 应 变量 有 异常 点 时 , 用 稳健 的 GCV 获得 的 估计 的 IMSE 略微 小 于 
非 稳 健 的 GCV. 


#46 ”不同 GCV 选取 光滑 参数 后 非 参数 估计 的 IMSE 比较 


RGCV GCV (IMSE — IMSE,)/IMSE, 
NP 0.0174 0.0168 —0.0345 
P1 0.0169 0.0162 一 0.0414 
P2 0.0200 0.0186 一 0.0700 
P3 0.0187 0.0212 0.1337 
P4 0.0249 0.0274 0.1004 
P5 0.0214 0.0222 0.0374 


W: NR 为 非 稳健 方法 , R 为 稳健 方法 . 
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2) 实例 分 析 

为 了 研究 新 提出 的 稳健 估计 的 有 效 性 , 利用 广义 部 分 线性 混合 模型 , 并 结合 
健 化 似 然 方法 进一步 分 析 GUIDE 数据 . 

对 该 数据 集合 建立 与 1.3.1 小 节 相同 的 部 分 线性 混合 效应 模型 logit(jwi;) = 
XTB + fo(AGE) + Ui, 其 中 , U; 服从 正 态 分 布 N(0,o?), 但 是 利用 本 节 的 方法 分 
析 . 在 分 析 中 , 采用 3 Wy P 样 条 . 由 于 变量 年 龄 中 可 区 分 的 数值 很 少 , 采用 5 个 固 
定 节点 会 导致 估计 的 结果 波动 比较 大 , 为 了 计算 的 稳定 性 , 选取 两 个 固定 节点 来 估 
计 响 应 变量 与 年 龄 之 间 的 非 线性 关系 , 光滑 参数 和 通过 稳健 的 GCV 选 为 10-5. 

为 便于 比较 , 把 分 析 结 果 以 及 Qin 和 Zhu (2007), He (2005), Sinha (2004) 
的 结果 同时 列 在 表 4.7 中 . 在 表 4.7 中 可 以 发 现 用 新 的 稳健 方法 分 析 , 在 显著 性 水 
平 为 0.05 下 , 变量 GENDER, DAYACC 和 SEVERE 的 影响 是 显著 的 , 但 是 用 非 稳 
健 方法 分 析 , 仅 有 变量 DAYACC 和 SEVERE 是 显著 的 . 利用 新 的 稳健 方法 分 析 : 
关于 假设 检验 Ho : o? =0 vs Hy: 0? >0 表 明 方差 成 分 o? 在 水 平 0.030 是 显 
著 的 , 这 个 也 表明 在 相同 的 医疗 研究 小 组 内 部 的 病人 是 相关 的 , 并 且 不 同 的 医疗 小 
组 有 显著 的 差异 . 检验 的 p 值 比 用 非 稳健 方法 得 到 的 0.123 要 小 很 多 . 分 别 用 Qin 
和 Zhu (2007) 以 及 Sinha (2004) 的 方法 , 相同 检验 的 p 值 分 别 是 0.071 和 0.094, 
这 些 值 虽 然 比 0.05 K, 但 是 比 用 非 稳健 方 得 到 的 要 小 . 更 进一步 , 新 的 方差 估计 同 
Qin 和 Zhu (2007) 以 及 Sinha (2004) 的 估计 有 比较 大 的 数值 差 . Preisser 和 Qaqish 
(1999) 指出 第 8, 42, 88 和 19 数据 点 可 能 是 异常 点 . 这 些 异 常 点 可 以 影响 在 稳健 佑 
计 方 程 中 的 数学 期 望 , 进而 影响 它们 的 估计 . 由 于 新 的 稳健 估计 方程 的 数学 期 望 成 
功 地 限制 了 异常 点 的 影响 , 因此 , 产生 了 合理 的 估计 . 


表 4.7 GUIDE 数据 的 回归 参数 估计 ( 续 ) 
Robust Nonrobust Q&Z H,F&Z Sinha 


截 距 一 - - 3.593(0.952) 
GENDER —2.698(0.663) —1.154(0.656) —1.594(0.603) —1.57(0.61) —1.298(0.632) 
AGE(10 年 ) 一 一 - —1.072(0.623) 
DAYACC 1.011(0.169) 0.613(0.136) 0.668(0.149) 0.59(0.14) 0.506(0.116) 
SEVERE 1.180(0.575) 1.091 (0.450) 0.826(0.464) 0.67(0.40) 0.827(0.373) 
TOILET 0.175(0.166) 0.082(0.089) 0.132(0.100) 0.27(0.10) 0.240(0.110) 
方差 4.331(2.305) 1.676(1.442) 1.984(1.353) 一 1.861(1.414) 


注 : 括号 中 的 数值 为 估计 的 标准 差 . 


这 个 数据 集 已 经 被 Sinha (2004), Qu 和 Song(2004), He 等 (2005) 以 及 Qin 和 
Zhu (2007) 多 次 分 析 过 . Sinha (2004) 指出 第 7, 10, 27, 56, 59, 97 和 131 点 可 能 
是 强 影 响 点 . 为 了 得 到 充分 的 信息 , 我 们 利用 2 = (DAYACC, TOILET) 计算 了 权 
函数 wij, 数据 点 7, 10, 59 和 97 具有 非常 小 的 权 ( 权 小 于 0.5), 这 些 结论 同 Sinha 
(2004) 的 结论 基本 一 致 , 而 且 通 过 计算 9;;, 发 现 数据 点 8, 14 和 89 对 响应 变量 有 
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较 大 的 修正 , 第 8 个 数据 点 是 一 个 可 能 的 异常 点 . 这 些 结论 也 同文 献 (Preisser and 
Qaqish, 1999) 中 类 似 . 


4.3.3 “一些 相关 的 问题 


随机 效应 模型 是 一 类 使 用 非常 广泛 的 纵向 数据 模型 , 在 前 面 主要 研究 了 模型 的 
两 种 稳健 统计 推断 方法 . 由 于 稳健 统计 推断 方法 一 方面 限制 了 异常 点 的 影响 , 同时 
也 能 限制 正常 观察 值 的 作用 , 因而 当 数 据 集 没有 异常 点 时 , 稳健 统计 推断 可 能 会 带 
来 效率 损失 . 所 以 在 使 用 稳健 统计 推断 之 前 , 必须 仔细 研究 数据 和 模型 是 否 吻合 得 
好 , 数据 集合 中 是 否 有 异常 点 和 强 影响 点 , 这 些 是 统计 诊断 和 影响 分 析 的 主要 研究 
内 容 . 

关于 半 参 数 混合 效应 模型 的 统计 诊断 方法 , 在 2002 年 , 我 们 首次 在 文献 (Fung， 
et al., 2002) 中 研究 了 部 分 线性 混合 效应 模型 的 统计 诊断 问题 , 得 到 了 计算 参数 和 
非 参 数 成 分 的 诊断 统计 量 , 并 研究 了 异常 点 的 检验 方法 , 得 到 了 检验 统计 量 . Zhu 
等 (2003) 研究 了 部 分 线性 混合 模型 的 局 部 影响 分 析 , 得 到 了 局 部 影响 的 影响 矩阵 
和 一 些 其 他 诊断 统计 量 . 张 浩 和 朱 仲 义 (2007) 研究 了 广义 部 分 线性 混合 模型 的 影 
响 分 析 问 题 , 利用 MCMC 方法 研究 了 诊断 统计 量 的 计算 和 用 实际 数据 进行 评价 方 
法 的 优 劣 性 . Zhu 和 Fung(2004) 研究 了 部 分 线性 混合 效应 模型 的 方差 成 分 检验 问 
题 , 得 到 了 Score 检验 统计 量 , 并 研究 了 检验 统计 量 的 大 样本 性 质 . 曾 林 蕊 和 朱 促 
义 (2008) 研究 了 广义 部 分 线性 混合 模型 的 方差 成 分 的 检验 问题 . 


4.4 转移 模型 


上 面 已 经 介绍 了 纵向 数据 的 边际 模型 和 混合 效应 模型 .这 两 类 模型 主要 刻画 
了 观察 数据 内 部 的 个 体 效 应 和 总 体 效应 , 还 有 第 三 种 对 纵向 数据 建 模 的 方法 . 由 于 
当前 的 观察 因 变量 可 能 同 前 面 已 经 观察 到 的 因 变 量 有 关系 , 从 而 产生 了 所 谓 的 转移 
模型 或 者 马尔 可 夫 模型 . 由 于 纵向 数据 连续 观察 的 特点 , 转移 模型 正在 被 许多 理论 
和 应 用 工作 者 重视 . 

为 给 出 模型 ， 首 先 令 Hy = (ya,… ,yij-1) 表示 第 j 次 观察 前 的 观察 历史 ， 
所 (Hij) 是 过 去 观察 变量 的 函数 (经 常 是 线性 函数 ). 给 定 过 去 的 观察 Hij, 观察 yi; 
的 条 件 分 布 具有 式 (4.3.1) 的 指数 族 密度 , 并 且 条 件 期 望 和 条 件 方差 为 


/8 = E(yij|Hiz) = 6(0i3) 和 vg = Var(yij|Hiz) = b(0i;)¢. (4.4.1) 


转移 模型 的 均值 和 方差 同 协 变量 zi;; 和 Hi; 之 间 的 关系 为 


guj) = 25 B+>— f-(Hiz,e) 和 vs, = v(us)¢, (4.4.2) 


r=1 
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其 中 , g(.) 和 v(-) 是 已 知 的 联系 函数 和 由 密度 函数 (4.3.1) 决定 的 方差 函数 . 

转移 模型 把 条 件数 学 期 望 表达 成 协 变量 和 过 去 的 响应 变量 的 函数 , 把 过 去 的 响 
应 变量 简单 地 当成 协 变量 . 函数 O) 是 已 知 的 , 假定 过 去 的 观察 通过 s 项 和 来 影 
响 目 前 的 观察 . 下 面 介 绍 几 个 常见 的 例子 . 

线性 联系 函数 模型 , 即 自 回归 模型 


Vi = x}, F X ar(Yij-r = zi_rB) + €ij) (4.4.3) 
r=1 
其 中 , ei; 是 具有 0 均值 的 独立 正 态 分布 . 这 是 一 个 具有 gug) = wi, v(p5) =1 及 
~ Jr = ar(yij-r — zi. _,3) 的 转移 模型 . 当前 观察 y;; 是 zi; 和 Yij-r 一 zi_rB 的 线性 
pe. 在 经 济 学 中 , 这 个 模型 也 称 为 动态 Panel 模型 . 
Logit 联系 函数 模型 , 对 二 元 响应 变量 建立 如 下 模型 : 


logit(ut;) = 28+ >> oryij—r. 
r=1 
BK BA a, 有 回归 参数 和 自 回归 参数 的 解释 . 
上 述 模型 的 一 个 吸引 人 的 地 方 是 能 够 获得 观察 向 量 的 联合 分 布 . 分 布 密度 可 以 
表示 为 条 件 密度 的 连续 乘积 


Thy 
Fua Vini Ba) = [f(yilya, ,is-1; 8,4). (4.4.4) 
j=l 


对 参数 可 以 利用 最 大 似 然 估 计 的 方法 求解 . 具体 可 以 参考 文献 (Diggle, et al., 2002), 
第 10 章 . 

在 时 间 系 列 领域 内 , 尽管 转移 模型 已 经 有 很 长 的 使 用 历史 , 但 是 应 用 到 纵向 数 
据 分 析 中 几乎 才 开始 . 由 于 转移 模型 有 许多 特别 的 结构 , 这 些 结构 限制 了 这 些 模型 
在 纵向 数据 分 析 中 的 应 用 . 一 般 地 , 转移 模型 要 求 每 个 个 体 在 等 时 间 间 隔 观 察 , 并 
且 要 有 相同 的 观察 次 数 . 在 纵向 数据 分 析 中 往往 数据 具有 缺失 , 观察 点 在 不 同 的 时 
间 点 , 这 样 就 不 能 满足 转移 模型 所 需要 的 条 件 . 这 就 限制 了 这 类 模型 的 应 用 . 最 新 
的 应 用 有 文献 (Zeng and Cook, 2007), 研究 了 基于 转移 模型 的 多 维 二 元 纵向 数据 
分 析 . 


4.5 进一步 展望 


在 这 一 节 中 , 展望 纵向 数据 分 析 在 以 下 三 个 方面 的 发 展 : @ 均值 与 协 方差 联 
合 模型 的 研究 ; @ 不 完全 纵向 数据 的 分 析 ; @ 纵向 数据 模型 的 模型 选择 问题 的 
研究 . 
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1. 均值 与 协 方差 联合 模型 的 研究 


在 许多 统计 推 斯 问题 中 , 均值 永远 是 主题 , 是 主要 感 兴趣 的 部 分 . 但 是 , 一 方面 
为 了 提高 均值 推断 的 效率 , 需要 数据 或 模型 的 方差 的 正确 估计 ; 另 一 方面 , 方差 部 
分 也 是 主要 感 兴趣 的 , 如 在 经 济 、 人 金融、 生物 领域 中 , 方差 是 描述 随机 波动 和 风险 
的 度量 , 这 些 量 是 这 些 领 域 主要 感 兴趣 的 . 

近 几 年 来 , 关于 均值 与 协 方差 联合 模型 , 越 来 越 多 的 统计 学 者 和 其 他 应 用 工作 
研究 者 对 这 些 模 型 感 兴趣 ， 文 献 (Fan, et al., 2007) 对 均值 部 分 建立 了 部 分 变 系 
数 模型 , 对 方差 是 一 个 半 参 数 模型 的 联合 模型 进行 了 较为 全 面 的 研究 . 该 论文 利用 
Profile 核 估计 研究 了 参数 估计 的 性 质 , 分 别 利用 最 大 拟 似 然 和 最 小 方差 估计 研究 了 
协 方差 参数 的 一 些 性 质 , 基于 残 差 利 用 核 估计 研究 了 方差 函数 的 估计 的 性 质 . 如 果 
能 够 正确 建立 方差 模型 , 均值 部 分 能 够 提高 效率 . Sun 等 (2007) 对 纵向 数据 均值 部 
分 建立 了 变 系数 模型 , 随机 效应 的 协 方差 阵 是 无 结构 模型 的 联合 模型 进行 了 研究 . 
他 们 首先 利用 局 部 线性 拟 合 系数 函数 , 然后 利用 投影 变换 求 出 协 方差 阵 的 估计 , 最 
后 研究 了 估计 的 性 质 , 得 到 了 估计 的 渐 近 正 态 性 . 还 有 许多 相关 的 文献 就 不 一 一 介 
绍 了 . 

均值 与 协 方差 联合 模型 的 统计 推断 最 大 的 困难 是 如 何 利 用 有 限 的 样本 信息 , 同 
时 对 均值 与 协 方差 进行 推断 ; 如 何 建立 简洁 有 效 的 协 方差 模型 , 因为 协 方差 阵 是 一 
个 正定 矩阵 , 这 对 解决 建立 模型 和 估计 增加 了 困难 . 目前 有 许多 统计 、 金 融和 经 济 
研究 工作 者 在 研究 此 类 问题 , 这 是 纵向 数据 分 析 领 域 中 一 个 相当 活跃 的 分 支 . 


2. 不 完全 纵向 数据 的 分 析 


由 于 纵向 数据 是 不 同 个 体 在 不 同时 间 点 上 收集 的 , 在 个 体 和 时 间 两 个 方向 都 有 
可 能 缺失 观察 , 所 以 这 种 类 型 的 数据 比 截面 数据 更 加 容易 缺失 . 在 数据 集中 缺失 数 
据 , 一 方面 损失 信息 , 因而 降低 推断 的 精度 ; 另 一 方面 也 是 最 重要 的 , 缺失 数据 可 能 
产生 有 偏 推 断 , 由 此 产生 错误 的 推 斯 ， 当 纵向 数据 不 完全 时 , 更 加 要 仔细 地 研究 这 
类 数据 的 统计 推断 . 

一 般 地 , 处 理 不 完全 纵向 数据 有 三 种 方法 : O 补缺 (imputation) 方法 ; @ 基于 
似 然 的 方法 ; O 加 权 方 法 . 有 关 这 方面 的 研究 已 经 有 大 量 的 文献 , 可 参见 最 新 的 专 
(Daniels and Hogan, 2008); Sun, Sun 和 Lin(2007). 但 是 这 些 还 远 远 没有 达到 想 
象 的 那样 完美 . 主要 的 困难 来 自 于 个 体内 部 的 相关 . 如 何 有 效 地 建立 内 部 相关 结构 
和 缺失 机 制 , 并 把 它们 结合 在 一 起 是 目前 分 析 不 完全 纵向 数据 面临 的 最 大 的 挑战 . 


3. 纵向 数据 模型 的 变量 选择 


由 于 个 体内 部 相关 和 分 类 数据 缺乏 似 然 函数 , 纵向 数据 模型 的 有 效 变 量 选 择 是 
一 个 非常 挑战 的 问题 . 如 果 能 够 获得 模型 的 似 然 函数 , 则 可 以 利用 古典 AIC 和 BIC 
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准则 进行 模型 选择 , 还 可 以 利用 现代 的 模型 选择 方法 , 如 Lasso 和 SCAD 等 , 但 是 
不 能 获得 模型 的 似 然 函数 , 模型 选择 的 方法 就 很 少 . 

最 近 , Fan 和 Li(2004) 对 纵向 数据 的 部 分 线性 模型 利用 Profile 似 然 和 SCAD 
方法 研究 了 模型 选择 问题 , 得 到 了 相合 估计 和 模型 选择 的 Oracle 性 质 ，Wang 和 
Qu (2009) 利用 二 次 推断 函数 方法 结合 BIC 准则 对 纵向 分 类 数据 模型 建立 了 模型 
选择 准则 , 并 证 明了 选择 准则 是 相合 的 . ] 

有 关 纵 向 数据 模型 的 模型 选择 的 研究 才刚 刚 开始 , 面临 的 主要 任务 是 : @ 如 
何 结合 个 体内 部 的 相关 性 和 现代 选择 准则 (Lasso 和 SCAD), 提出 行 之 有 效 的 变量 
选择 准则 ; O 对 纵向 数据 的 一 些 复杂 模型 , 如 非 参数 、 半 参数 、 随 机 效应 等 模型 , 如 
何 建立 变量 选择 准则 . 
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第 5 章 测量 误差 模型 及 其 统计 推断 方法 
5.1 测量 误差 模型 简介 


在 统计 学 中 , 人 们 会 利用 各 种 不 同 的 方式 来 收集 数据 , 然后 对 所 收集 的 数据 进 
行 分 析 . 但 在 收集 数据 的 过 程 中 经 常会 有 所 谓 测 量 误差 (measurement error) 产生 ， 
如 当 调 查 工 资 收 入 时 , 由 于 种 种 原因 , 人 们 往往 不 愿意 把 真实 的 工资 告诉 你 , 这 时 
候 所 得 到 的 数据 就 带 有 测量 误差 . 测量 误差 可 在 包括 经 济 学 、 流行 病 学 、 工程 学 等 
在 内 的 几乎 所 有 应 用 领域 中 出 现 , 而 这 些 误 差 在 进行 数据 分 析 时 常 被 忽略 , 其 可 能 
的 原因 是 这 些 误差 均 非 已 知 , 而 无 从 列 入 . RR “ARK”, 则 所 得 结果 的 分 析 
与 推断 将 会 受到 很 大 影响 . 从 广义 来 看 , 测量 误差 存在 于 各 个 领域 , 但 往往 为 人 们 所 
忽略 . 本 文 介绍 的 是 比较 狭义 的 测量 误差 模型 (measurement error model 或 errors- 
in-variables model, EV 模型 ). 最 简单 的 测量 误差 模型 是 X = z +e, 其 中 , zx 是 所 研 
究 的 变量 , 但 不 能 观测 到 , 所 观测 到 的 是 它 的 替代 品 或 替代 变量 X, e 是 其 测量 误 
差 . 在 统计 理论 与 实际 应 用 中 , 回归 模型 (regression model) 扮演 着 极其 重要 的 角色 ， 
但 普通 回归 模型 中 的 自 变量 (independent variable), 无 论 是 固定 的 (fixed) 或 是 随 
机 的 (stochastic), 均 认 为 是 可 以 直接 观测 的 量 , 用 符号 表示 即 为 因 变 量 (dependent 
variable)y, 自 变量 r 均 可 获得 直接 的 观测 值 . 回归 模型 即 是 假设 y Me 之 间 有 某 
种 回归 关系 , 其 中 , 最 简单 的 例子 就 是 线性 关系 , 即 是 线性 模型 . 而 在 EV 回归 模型 
中 , 一 般 自 变量 r 和 因 变 量 y 是 不 能 直接 观测 到 的 , 而 只 能 观测 到 替代 变量 Y 和 
X, 但 Y 和 XX 之 间 的 关系 并 不 清楚 , 因 (X,Y) 是 (z,y) 的 替代 变量 , 也 即 (x,y) 才 
是 真实 的 , 但 观测 不 到 , 只 能 观测 到 替代 变量 X,Y). 这 也 就 说 明 在 测量 (x,y) 时 
是 存在 误差 的 , 最 简单 的 情形 是 X = z+eY =y+e, 加 上 原来 的 回归 关系 所 构成 
的 模型 即 为 测量 误差 的 模型 . 

最 原始 的 线性 测量 误差 模型 在 19 世纪 70 年 代 即 已 出 现 , 但 并 未 受到 特别 的 
重视 , 其 后 百 余年 , 回归 模型 无 论 在 理论 上 还 是 在 应 用 上 均 有 长 足 的 进步 , 而 且 成 
为 统计 分 析 中 极为 重要 的 工作 . 反观 测量 误差 模型 却 进展 缓慢 , 真正 的 原因 很 难 理 
W, 但 模型 的 复杂 度 可 能 是 其 主要 原因 . 直观 来 说 , 能 收集 到 的 数据 是 以 (X,Y) 的 
形式 出 现 的 , 但 Y 和 XX 之 间 的 关系 却 不 明确 , 只 知道 y Ao 之 间 的 关系 . 在 此 情形 
F, 任何 统计 推论 或 多 或 少 都 会 碰 到 困难 . 从 技术 性 上 来 说 , 对 模型 的 参数 估计 (点 
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估计 和 区 闻 估 计 ) 均 有 一 定 的 困难 和 障碍 , 这 也 是 测量 误差 模型 在 一 般 应 用 上 不 受 
重视 的 原因 , 对 一 般 统计 软件 , 也 没有 此 类 的 设计 . 到 了 20 世纪 80 年 代 , 测量 误差 
模型 才 开 始 受到 重视 , 其 原因 是 在 许多 数据 用 普通 回归 模型 处 理 时 , 结果 不 十 分 理 
想 , 究 其 原因 是 自 变 量 中 的 误差 太 大 , 无 法 以 传统 的 回归 模型 来 分 析 . 

过 去 20 多 年 来 , 有 关 测 量 误差 模型 的 研究 如 雨 后 春 算 般 兴起 , 这 也 是 因为 在 
许多 科 中 , 如 化 学 、 工 程 、 医 学 等 系 , 均 需 用 测量 误差 模型 来 处 理 问题 , 从 而 加 速 了 
此 问题 的 研究 . 模型 的 复杂 程度 和 研究 的 难度 也 大 为 提高 , 不 过 也 正 因为 如 此 , 测 
量 误 差 模型 的 研究 也 变 为 极 具 挑战 性 的 问题 . 

总 而 言 之 , 测量 误差 模型 的 出 现 和 对 其 研究 的 深入 是 很 自然 的 事 , 但 使 用 测量 
误差 模型 的 用 意 并 非 在 取代 传统 的 回归 模型 ， 其 真正 作用 是 在 使 用 一 般 回归 模型 
时 , 车 所 得 结果 似乎 有 问题 , 或 者 在 收集 数据 时 发 现 测量 误差 太 大 而 无 法 忽视 , 这 
时 测量 误差 模型 则 是 一 个 重要 的 备 选 模型 . 虽然 自 20 世纪 80 年 代 后 期 , 非 线 
性 测量 误差 模型 被 广泛 地 研究 , 但 在 线性 模型 中 许多 重要 的 问题 , 如 diagnostics, 
variable selection 等 也 均 缺 少 研究 . 这 是 因为 此 类 问题 难度 相当 高 , 到 目前 仍 未 有 
理想 的 结果 . 这 些 问 题 与 非 线性 误差 模型 均 是 未 来 重要 的 研究 方向 ， 可 参见 文献 
(Stefanski, 2000) 的 评述 . 有 关 测 量 误差 模型 的 参考 书 有 (Schneeweiss and Mittage, 
1986; Fuller, 1987; Carroll, et al., 1995; Cheng and van Ness, 1999), 其 中 , 入 门 书 
籍 以 (Fuller, 1987; Cheng and van Ness, 1999) 为 主 . 至 于 文献 (Schneeweiss and 
Mittage, 1986) 是 德 文 , 英文 新 版 尚未 出 书 , SCHR (Carroll, et al., 1995) 主要 以 非 线 
性 模型 为 主 , 对 初学 者 较 不 宣 , 但 对 非 线 性 误差 模型 有 兴趣 者 应 是 最 佳 选择 . 

本 文 在 介绍 测量 误差 模型 的 基础 上 , 进一步 介绍 了 几 类 重要 测量 误差 模型 的 估 
计 方 法 和 模型 检验 方法 , 具体 介绍 了 简单 测量 误差 模型 中 的 平均 变换 估计 、 线性 测 
量 误差 模型 的 稳健 估计 方法 、 部 分 线性 测量 误差 模型 的 估计 方法 、 变 系数 和 随机 效 
应 测量 误差 模型 的 估计 方法 、 有 辅助 变量 的 测量 误差 模型 的 去 品 (denoised) 估计 
方法 、 测量 误 差 模 型 的 置信 区 间 的 构造 方法 以 及 测量 误差 模型 的 模型 检验 方法 等 . 


5.2 简单 测量 误差 模型 中 的 平均 变换 及 估计 方法 
5.2.1 ”简单 测量 误差 模型 
称 如 下 形式 的 测量 误差 模型 : 
Y=X+u (5.2.1) 
为 简单 测量 误差 模型 , 其 中 , X 与 v 独立 , X 的 密度 f(z) RA, v 是 均值 为 0, 分 布 已 


知 的 测量 误差 . 模型 (5.2.1) 中 所 描述 的 测量 有 不 可 忽略 误差 的 现象 广泛 存在 于 纤 
维 获 光 测 定 (microf luorimetry)、 电 泳 疗法 (electrophoresis), 生物 统 计 学 、 林 学 、 抽 
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样 调查 和 其 他 领域 中 . 这 一 领域 更 多 的 工作 可 以 参见 文献 (Fuller, 1987; Stefanski, 
1989; Carrol, et al., 1995; Ioannides and Alevizos, 1997; Cui, 1997a, 1997b; Zhang and 
Chen, 2000; Zhu and Cui, 2003) 及 其 参考 文献 中 找到 . Stefanski 和 Carroll(1991) 
报告 了 一 个 放射 暴露 量 的 健康 效应 的 例子 , 测量 得 到 的 放射 暴露 量 包含 大 量 的 测量 
误差 , 他 们 建立 了 deconvolution 核 密 度 估计 的 渐 近 理论 . 关于 deconvolution 更 多 
的 实用 方面 可 参见 文献 (Fan, 1991a). 更 多 关于 deconvolution 核 技 术 可 以 在 文献 
(Fan, 1991b; Fan and Truong, 1993; Fan, 1995; Ioannides and Alevizos, 1997) 等 中 
找到 . 


5.2.2 ”变量 的 平均 变换 与 分 解 卷 积 方法 


在 实际 应 用 中 , 估计 真实 变量 变换 的 均值 十 分 必要 ， 而 实际 真实 变量 的 观测 
往往 含有 测量 误差 ， 例 如 , 在 抽样 调查 中 , 希望 估计 一 批 产 品 中 n 个 球 的 平均 体 
积 , 但 直径 X 的 测量 带 有 测量 误差 v. 观测 到 Y = Xi +v (1 < i < n), 并且 
平均 体积 xE(X3)/6 需要 根据 样本 {Yi,… Yn} 进行 估计 . 另外 一 个 例子 是 有 一 
个 有 限 总 体 P = {Zi = Xib +0o(Xi)ði, Yı = Xi + vili = 1,--- N}, 它 是 超 总 体 
Z =XB+o(X)6,Y = X +v 的 实现 . 为 了 估计 总 体 方差 了 = 六 (2) -下 2/(V_1)， 

j=l 
准确 估计 Eo?(X) 可 能 是 有 用 的 , 对 此 的 详细 讨论 可 以 参见 文献 (Qin and Feng， 
2003). 在 实际 抽样 中 , 样本 量 一 般 很 大 , 如 果 误 差分 布 的 知识 获得 得 足够 , x 的 分 


解 卷 积 (deconvolution) 非 参 数 密度 估计 应 该 是 可 行 的 . 一 般 来 说 , X 的 关于 光滑 
可 积 函 数 h(-) 的 平均 变换 定义 为 


9 = E(h(X)) = f h(x) f(2)dz, 


其 中 , f(-) 是 X 的 密度 . 
Qin 和 Feng(2003) 根据 来 自 模型 (1) 的 {Y1 , Yn} 构造 了 9 的 分 解 卷 积 核 
估计 Ona, 


bas / h(a) f(x)de = a = j Kn (2 —*2) h(x)ae, 


其 中 , f(x) = (nan)! Y Kn(z — Y;/an) 是 密度 f 的 分 解 卷 积 核 估计 ， 
j=1 


| ox (t) 
Rule) = 3. | Rilan) 


是 核 函数 K(-) 的 Fourier 变换 ox (t) 的 分 解 卷 积 核 , a 是 窗 宽 序列 , i = vI H 
dy (t) 是 v 的 特征 函数 . 


exp{ 一 itz}dt 
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由 于 分 解 卷 积 核 密度 估计 的 极限 行为 极其 依赖 pe 的 尾部 , 在 普通 光滑 (ordi- 
nary smooth) 的 情形 下 (定义 参见 文献 (Stefanski and Carroll, 1990)), Fan (1991a, 
1991b) 等 证 明了 fa? (2)- fO (2) 具有 最 优 平均 收敛 速度 O(n-(mto-D/l2(m+ta+8)+1]) 
(关于 f 一 致 , 其 中 , BA 加 的 普通 光滑 指数 , mo 为 了 可 导 类 指数 ) 以 及 标准 化 
fn(z) 后 具有 渐 近 正 态 性 . 

Cui(2005) 在 普通 光滑 (ordinary smooth) 的 情形 下 获得 了 E(6na)—0  bna—0 
的 表示 定理 , 从 而 证 明了 bu 的 渐 近 正 态 性 . 注意 到 当 h(x) 为 多 项 式 时 , 分 解 卷 积 
核 密 度 估 计 与 矩 估 计 有 所 不 同 . 例如 , 当 A(x) = z2 时, v 服从 双 指 数 分 布 ,Var(u) = 


og, K(x) = exp(—z?/2)/V2x, 可 以 得 到 矩 估计 Ônm = (1/n) x 下 一 08, 并 且 Ond = 
j=1 
(1/n) 33 Y? — 02 + a2 = Bm + a2 (Cui, 2005). 
j=l 


5.2.3 SIMEX 5 EXPEX 方法 


众所周知 , 正 态 分 布 是 super smooth 分 布 的 重要 代表 , 研究 一 般 super smooth 
情况 下 测量 误差 模型 的 工作 较为 困难 . Fan (1991a, 1991b) 等 获得 了 f(z) - f(z) 
具有 最 优 平均 收敛 速度 O((logn)-(™+e—-9/9) (关于 太一 致 , HH, 8 为 加 的 超 
光滑 指数 , ma Af 可 导 类 指数 ) 以 及 标准 化 f(z) 后 具有 渐 近 正 态 性 , 表明 在 
测量 误差 模型 中 super smooth 情况 下 , 用 分 解 卷 积 方法 进行 与 X 的 密度 有 关 的 
非 参 数 估计 的 收敛 速度 极 慢 , 并 且 不 可 能 改进 .Cook 和 Stefanski(1994), Stefanski 
和 Cook(1995), Stefanski 和 Bay(1996), Staudenmayer 和 Ruppert(2004)) 等 给 出 
J SIMEX(simlation-extrapolation) 方法 , 即 当 测量 误差 分 布 已 知 正 态 时 , 用 原 数 据 
加 上 模拟 误差 数据 (方差 5 > 0 可 变化 ) 产生 新 数据 , 并 在 新 数据 下 进行 估计 . 随 
着 5 > 0 的 变化 , 可 找 出 所 作 估 计 的 变化 规律 , 进而 拟 合 出 变化 曲线 , 再 外 推 插 值 
至 6 = -1 时 估计 的 值 , 即 得 所 求 的 估计 . 这 一 方法 对 误差 分 布 已 知 正 态 (super 
smooth) 且 方 差 较 小 时 , 其 估计 比较 有 效 . 

Cui(2005) 在 super smooth 的 情况 下 , 研究 了 简单 测量 误差 模型 的 X 的 平均 
变换 估计 , 提出 了 EXPEX(expectation-extrapolation) 方法 , 这 是 相对 于 SIMEX 所 
提出 的 一 种 估计 方法 , 它 能 有 效 地 避免 由 误差 超 光 滑 所 带 来 的 困难 , 本 质地 提高 估 
计 的 收敛 速度 . 

令 Z~N(0,08), h*(y) = Re{Ez[h(y + iZ)]} = lim Re{Ez[h(y + VAZ)]}, 其 
中 , i = /-1, Re 表示 复数 的 实 部 . 称 h*(y) 为 h(y) 的 EXPEX 函数 ,9 的 EXPEX 
估计 构造 如 下 : 


x Te 
be = — X- h*(Y;). 
n 


在 一 定 的 条 件 下 , Cui(2005) 建立 了 6,. 的 \ 抑 渐 近 正 态 性 . 
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5.3 线性 测量 误差 模型 与 稳健 估计 方法 


5.3.1 ”线性 测量 误差 模型 
称 如 下 形式 的 测量 误差 模型 : 


{ Y=a2'Byte, 


(5.3.1) 
X=xz+u 


为 线性 测量 误差 模型 , 其 中 , X 为 取 值 于 R 上 的 可 观测 随机 向 量 , x 为 p 维 不 
可 观测 随机 向 量 , By 为 p x 1 未 知 参 数 向 量 , (ewT)T 为 p +1 维 球 对 称 向 量 , 即 
(cut)? £ RU, (其 中 , R 为 非 负 随机 向 量 , Ups. 为 2, = {ala € Re+lllall = 1} 
上 的 均匀 随机 向 量 , 并 且 R 与 Upyi 独立 ), o? = ER?/(p +1) > 0 未知 , (e,uT)T 
与 z 独立 ( 球 型 误差 分 布 的 要 求 是 为 了 满足 模型 可 识别 的 条 件 ). 模型 (5.3.1) 为 线 
性 测量 误差 模型 , 有 着 广泛 的 应 用 背景 , 如 在 经 济 、 林 业 、 建 筑 、 生物、 遥感 等 领域 
对 模型 (5.3.1) 的 研究 主要 是 利用 极 大 似 然 法 、 广 义 最 小 二 乘法 分 别 给 出 6u,e2 的 
估计 Bn A 62, 并 获得 它们 的 相合 性 与 渐 近 正 态 性 , 这 一 方面 的 重要 工作 可 参见 文 
献 (Anderson, 1984; Glesser, 1990). 但 随 着 稳健 统计 方法 的 发 展 , 人 们 已 不 满足 于 
广义 最 小 二 乘 估计 . 1989 年 , Zamar 给 出 了 测量 误差 模型 中 Bu 的 估计 n, 并 在 一 
些 不 易 验证 的 条 件 下 仅 获 得 了 B,, 的 强 相合 性 . 在 正 态 误差 假设 下 , Cheng 和 van 
Ness(1992) 应 用 正 交 回归 和 极 大 似 然 法 研究 了 结构 线性 测量 误差 模型 的 稳健 估计 
问题 . 

5.3.2 ”参数 的 正 交 回归 与 M 估计 方法 


假设 {Xi = (Xiu, Xi , Xip)! Yill < i < n} 为 来 自 模型 (5.3.1) 的 一 组 独 
立 同 分 布 随机 样本 , 即 ， 


| Y; =z] bo + éi, 


i= 1,2,- n, 
Xi = Ti +t ti, 


其 中 , (eiur) (1 < i < n) X iid. 球 对 称 随 机 误差 向 量 有 E(ei,uT)T = 0, Cov(er, 
ut)” = zc27p+1. 为 了 获得 Bo 的 M 估计 , 选取 一 适当 的 p(-) 函数 , 则 By 的 正 交 回 
归 M 估计 定义 为 下 述 极 值 问题 的 解 : 


1 心 /Y,-XTÊ ) nf? z (255) } 
= 一 -一 上 = 二 | = 一 一 一 € R? », 
AT min p VII) 


称 B, 为 Bo 的 M 估计 , 并 由 此 定义 o? 的 估计 62 如 下 : 
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_1 y ore) (Yi - XF Ên)? 
nE 1+ lô? 


Cui(1997a) 研究 了 测量 误差 模型 中 Bo 的 M 估计 问题 , 在 很 一 般 的 po(.) 函数 下 , 获 
得 了 Bo 的 估计 Ôn 在 一 些 基 本 的 假设 下 , 得 到 了 6, 的 强 相 合 性 与 渐 近 正 态 性 ， 
并 同时 得 到 了 o 的 估计 62 及 其 渐 近 性 质 . 需要 指出 的 是 Cui(1997b) 在 球 对 称 误 
差 向 量 假 设 下 , 研究 了 线性 测量 误差 模型 中 广义 最 小 一 乘 估计 的 渐 近 性 质 , 并 说 明 
了 对 不 可 观测 的 点 列 或 随机 向 量 所 施加 的 条 件 及 对 误差 向 量 所 施加 的 矩 条 件 本 质 
上 是 不 可 改进 的 . 


5.3.3 ”参数 的 正 交 回归 t 型 估计 方法 与 EM 算法 
Cui(2006) 提出 了 线性 测量 误差 模型 中 回归 系数 的 t 型 回归 估计 (方法 ) 


| le ( ¥i-XiB 
(Bus Gn) =: arg ac TRE a = a) +log(o)} 
aa log(1 + 2?/v). Hu 和 


及 其 相应 的 EM 算法 , 其 中 , p 函数 可 取 为 p(z) 3 


Cui(2008) 研究 了 这 一 土 型 回归 估计 的 稳健 性 质 和 渐 近 性 质 , 建立 了 线性 测量 误差 
模型 t 型 回归 估计 的 强 相合 性 与 渐 近 正 态 性 , 同时 给 出 了 估计 的 影响 函数 等 . 


5.4 ”部 分 线性 测量 误差 模型 及 其 参数 估计 方法 
5.4.1 协 变量 有 测量 误差 的 部 分 线性 测量 误差 模型 及 其 参数 估计 方法 
1. 协 变 量 有 测量 误差 的 部 分 线性 测量 误差 模型 
如 下 形式 的 测量 误差 模型 


Y =2'B+g(T) +e, 
X=2+4u, 


(5.4.1) 


称 之 为 协 变量 有 测量 误差 的 部 分 线性 测量 误差 模型 , 其 中 , (X, T) 为 取 值 于 R? xR! 
上 的 可 观测 随机 向 量 , T 的 支撑 集 为 有 界 闭 集 , 不 妨 设 为 [0, 1], z 为 p 维 不 可 观测 
随机 向 量 , BA p 维 未 知 向 量 , 9 是 定义 于 [0,1] 的 未 知 函 数 . (cub)? A pil 4 
随机 误差 向 量 且 有 Ele uT)T = 0, Cov(e uT)! = o?Ipy, 0? > 0 AAA (6, uT)" 
与 (X,T) 独立 . 模型 (5.4.1) 属于 一 类 半 参 数 测量 误差 模型 , 它 表 明 变 量 Y 关于 
(2,T) 的 回归 函数 E(Y|(z,T)) 呈 部 分 线性 形式 , HEZE r 不 能 直接 观测 到 , 所 
能 观测 到 的 是 受 了 误差 变量 u 干扰 的 变量 X. 这 类 模型 有 着 广泛 的 应 用 背景 ,如 
EAT. PL. BSA. EW. RSM. 目前 , 单纯 的 半 参 数 回归 模型 和 单纯 的 
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测量 误差 模型 都 有 着 广泛 而 深入 的 研究 . 就 单纯 的 半 参 数 回归 模型 来 说 , 其 研究 的 
重点 是 设法 构造 6 和 9 的 估计 量 , 使 它们 分 别 达 到 各 自 最 优 的 收敛 速度 n 和 
n-"/(2r+1) (r 表示 g 的 光滑 度 ). 很 多 研究 者 ， 如 Engle 等 (1984), Wahba(1984), 
Heckman(1986), Chen(1988), Robinson(1988), Eubank 和 Speckman(1990), Hong 和 
Cheng(1994), Donald 和 Newey(1994)， 就 单纯 的 测量 误差 模型 来 说 , 主要 是 利用 
极 大 似 然 法 、 广 义 最 小 二 乘法 分 别 给 出 B,o? 的 估计 B,,62, 得 到 它们 的 相合 性 与 
渐 近 正 态 性 ， 详 见 文献 (Anderson, 1984; Glesser, 1990; Fuller, 1987; Amemiya and 
Fuller, 1984). 


2. 参数 与 非 参数 函数 估计 方法 
假定 {Xi = (Xa, Xi Xip)TT Yi, 1 < i < n} 为 来 自 模型 (5.4.1) 的 一 组 
独立 同 分 布 随机 样本 , 即 


{ Y; = x} B + g(T) + éi, 


= 1,2,--- 1h, 
Xi = qti + ui, 


其 中 , (eiuf) (1 <i <n) 为 iid. 球 对 称 随机 误差 向 量 有 E(e,, uf)? = 0, Cov(e, 
uT)T = Ga, 并 且 (eu) 与 (有 Xi,T;) 独立 .为 了 构造 86,g 和 o? 的 估计 ， 
取 {wni(t) = wni(t,T1,---,Tn),1 <i <n} 是 一 列 定义 在 [0,1] 上 的 非 负 函数 , 满 


足 wni(t) = 1(Vt € [0,1]), 并 记 hn(t) = È or 下 G2n(t) = ra wni(t)Xi, 


Ý; = Y; — ĝin (T), Xi = Xi — Gon(Ti), Ý = (Yi, p Yn)", X = (Xi, +++, Xn)™, Cui 
和 Li (1998) 定义 了 下 述 极 值 问题 的 解 为 8,, 的 估计 量 : 
16 /BN _ 353 ¥i- Xi 8 r} 
"rr) (VET) Pw) 


称 此 B, 为 B 的 广义 最 小 二 乘 估计 . 由 此 可 定义 9 和 o? 的 估计 gt, 62 如下: 


二 _ 二 (Xi — X; Bn)? Ži B,)? 
Ht) = ĝin (t) — Gon(t)* Bp, 62 2-3) a 1 十 | 局 .|2 


Cui 和 Li(1998) 在 一 些 基本 假设 条 件 下 , 获得 了 Bn 和 52 的 相合 性 与 渐 近 正 
态 性 , 并 得 到 了 oF 的 最 优 收敛 速度 等 . 
5.4.2 ”全 部 变量 有 测量 误差 的 部 分 线性 测量 误差 模型 的 参数 估计 


在 过 去 的 20 年 中 , 带 有 变量 误差 的 回归 分 析 已 经 有 了 快速 发 展 , 大 多 数 的 工作 
都 围绕 着 参数 方法 . 在 这 种 方法 中 , 假设 回归 函数 的 形式 对 未 知 参数 来 说 是 己 知 的 ， 
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如 文献 (Amemiya and Fuller, 1984; Anderson, 1984; Fuller, 1987; Carroll and Hall, 
1988; Stefanski and Carroll, 1991; Iturria, Carroll and Firth, 1999). Fuller (1987), 
Carroll 等 (1995) 以 及 其 他 学 者 都 对 此 进行 了 研究 , 获得 了 丰富 的 研究 成 果 . 对 带 
有 变量 误差 的 非 参数 模型 ，Fan(1991la), Fan 和 Truong(1993), Fan(1995) 等 用 分 解 
卷 积 (deconvolution) 方法 , 研究 了 非 参 回归 函数 的 估计 , 并 且 获 得 了 局 部 和 全 局 的 
收敛 速度 . Carroll 等 (1999) 利用 模拟 样 条 插值 方法 , 获得 了 正 态 测量 误差 分 布 时 
估计 的 渐 近 理论 . 

由 于 在 非 参 模型 中 的 “ 维 数 祸根 ”问题 , 目前 已 经 引入 许多 的 半 参 数 模型 . 在 
这 些 模型 中 , 部 分 线性 模型 得 到 人 们 的 广泛 关注 (如 文献 (Engle, et al., 1984; Speck- 
man,1988). 如 果 在 部 分 线性 模型 中 假设 只 在 线性 部 分 的 变量 有 误差 时 ，Cui 和 
Li(1998), Liang 等 (1999) 以 及 He 和 Liang(2000) 研究 了 参数 估计 的 渐 近 正 态 性 以 
及 模型 中 非 参 函数 的 收敛 速度 , Liang(2000) 研究 了 当 只 在 非 参 部 分 的 变量 有 误差 
时 参数 估计 量 的 渐 近 行为 . 

1. 全 部 变量 有 测量 误差 的 部 分 线性 测量 误差 模型 

令 (T°, X°, Y) 表示 一 组 随机 变量 (或 向 量 ), 并 假设 在 给 定 (T°, X?) 时 ,Y 的 
条 件 期 望 EE(Y|T?, Xo) = X°TO + g(T?), HH, X°, T° DHE p 维和 1 维 的 , 9 是 
p x 1 的 回归 参数 向 量 , g) 是 未 知 函 数 , 9 和 g 的 估计 自然 依赖 于 观测 数据 . 但 是 
由 于 测量 机 制 或 环境 的 特征 , 变量 X° 7° 不 能 直接 观测 , 取而代之 的 是 带 有 测量 
误差 的 观测 (Fuller, 1987, 第 2 页 ), 即 X°, T? ict X = X°+u,T=T?+v RM 
测 , 其 中 , u,v 是 误差 扰动 . 因此 , 如 下 的 半 参 数 测量 误差 模型 : 


Y =X°T0 +g(T) +e, 

X=X°+u, (5.4.2) 

T =T? +v, 
称 之 为 全 部 变量 有 测量 误差 的 部 分 线性 测量 误差 模型 , 其 中 , X, KO ERP px 
的 随机 向 量 , Y, T, TO 是 随机 的 实 值 变量 , e,v 是 不 可 观测 的 误差 变量 ,w 是 px1 的 
不 可 观测 的 误差 向 量 , u,v 和 (XT, T? e)! 是 相互 独立 的 , T° 有 未 知 密度 f(t), 并 
且 0< aint PO < sup Pe) < oo, 其 中 , a,b 是 常数 , v 有 已 知 特征 函数 是 #,(t). 
假设 


E(u)=0, Cov(u) = Dy, 


E(v) = E(e|X°,T°) =0, Var(e, X°, T°) = o?, 


其 中 , of AA. 考虑 到 模型 可 识别 , 因而 假设 Du > 0 是 已 知 的 . 
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由 于 在 模型 (5.4.2) 中 测量 误差 在 线性 和 非 参 数 两 部 分 , 这 要 比 Cui 和 Li(1998)， 
Liang 等 (1999), He 和 Liang(2000) 以 及 Liang(2000) 所 作 的 研究 更 为 困难 , 因为 他 
们 所 作 的 研究 中 要 么 是 线性 部 分 , 要 么 是 非 参 部 分 包含 测量 误差 . Zhu 和 Cui(2003) 
研究 了 模型 (5.4.2) 中 参数 和 非 参 数 函 数 的 估计 问题 , 这 里 有 两 个 难点 需要 克服 . 首 
先 , 需要 处 理 测量 误差 对 T 的 支撑 的 边界 的 影响 , PRADA UL, 需要 处 理由 构建 非 参 
数 估计 时 误差 引起 的 边界 问题 ; 其 次 , 不 能 将 带 估 计 或 8 的 线性 部 分 移 到 回归 方程 
(5.4.2) 的 左边 , 如 同 线 性 部 分 不 带 误差 的 情形 下 所 用 的 技术 (Liang, 2000), 同样 , 对 
于 估计 g 也 一 样 . 更 重要 的 是 非 参数 函数 9 以 及 测量 误差 分 布 的 光滑 性 不 仅 严重 
影响 了 非 参 函数 估计 的 渐 近 行为 , 也 影响 了 参数 估计 的 渐 近 行为 . 

2. 参数 与 非 参 数 函 数 估计 方法 

参数 和 非 参 数 函 数 估 计 的 构造 方法 . 令 

U(X,T°) =X — E(X|T°) = X° — E(X°|T°) + u, 
U(Y,T°) =¥ — E(Y |T?) = [X° ~ E(X°|T°)|* + e, 
w(t) > 0 是 一 个 权重 函数 , 有 支撑 [a,b]. 注意 到 在 这 个 集合 中 , 变量 To 的 密度 函 
数 f°(.) 是 有 界 的 且 远 离 0 和 无 穷 . 当 考 虑 在 [a,b] 上 的 一 致 收敛 性 时 , 它 起 到 了 一 
个 至 关 重 要 的 作用 , 而 且 避 免 了 核 估 计 的 边界 问题 , 这 是 由 于 当 用 核 方法 时 , 必须 
去 处 理 分 母 中 f? 的 估计 . 记 
Sı = E(U(X,T°)U(X,T°)*u(T®)| 
= E{[X° — E(X°|T°)][X° — E(X°|T°)]*w(T°)} + Ew(T) S, 
全 S 十 S3 12, 
S2=E|[U(X,T°)U(Y,T°)u(T°)] = S0, 
S4 = El(e— u™)?u(T°)), (5.4.3) 


其 中 , S = E{[X° — E(X°|T)|[X° — E(X°|T)|Tw(T)}, 8S3 = Ew(T?). & hh 
是 (Y,X,T°) 的 密度 , 并 且 


g1(t) = E(X|T° =t) Ê (g1 (t) ,gip(t))", g2(t) = E(Y |T? =t). (5.4.4) 


如 果 S 是 一 个 正定 矩阵 ( 记 为 S > 0), 可 由 式 (5.4.3) 和 式 (5.4.4) 得 到 
0,g(t),o2? 的 总 体形 式 (population formula) 为 


0 = (S1 — 538) S2, g(t) = g2(t)— gi(t)"0, 02 = S4/S3 — 075,0, 


从 而 , 9,g,o2 的 估计 现在 就 简化 为 S1, S2, 53,54 以 及 gy, 92 的 估计 . 
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假设 {X; = = (Xj1,: Xip) Tj, Yj, l< j < n} 是 来 自 以 下 模型 的 样本 量 为 m 
的 样本 : 
Y; =X}570+9(T®) + ej, 
Xj;=Xj+u;, l<j<n, 
Tj =T} + vj, 
则 0,02, 9 的 估计 由 下 列 步 又 得 到 : 
第 1 步 给 出 PO 的 分 解 卷 积 核 估计 . PO = 去 E Ka (二) ,其 中 
= 
h = h, ERR. 


第 2 步 分 别 定义 (Y, X, TO) 的 联合 密度 函数 f(y, x,t), g(t) gt) 的 估计 
如 下 : 


n > '¢ — Y; —T; 
huzd- ee DIK (# : t) g (2 m 2) Ky (: +), 


j=1 k=1 
È Kalt DX E Kal(t -15)/A)¥; 
On) E a(t) = =| —_____, 
È Kallt = TN È Ka((t—73)/h) 
Š 


其 中 , (y, zx,t) € R! x RP x RI. 类 似 于 文献 (Stefanski and Carroll, 1990; Fan and 
Truong, 1993), 可 以 证 明 在 某 些 正则 条 件 下 和 对 较 广 的 一 类 误差 分 布 , fn(y, x,t), 
9in(t), Gon (t) 是 Fly, T, t), gı (t), g2(t) 的 相合 估计 . 
第 3 步 根据 式 (5.4.3), 构造 S (q = 1,2,3),9,9(.) 的 估计 如 下 : 

$= ff, fe Sn) Tl) fdrdyat, 

$= ,fe -oy 9a) wld) adrdyat 

Sn = | wt) fa at 

Ôn = (Sin — $3n Qu) San, Gn(t) = Gon(t) — Gin (t)7 On. 


第 4 步 构造 Sa, 02 的 估计 如 下 : 


Sic =/ f (y F zT6， = Gn(t))?w(t) faly, T, t)dydadt, 
R! JRP JRI 


A 5 aT r 
62 = 64n/S3n 一 620 
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Zhu 和 Cui(2003) 考虑 了 所 有 变量 均 有 测量 误差 的 部 分 线性 回归 模型 , 用 上 述 
和 矩 方法 和 分 解 卷 积 的 方法 , 构造 了 一 种 新 的 参数 估计 以 及 对 模型 中 非 参数 函数 的 核 
估计 , 并 获得 了 所 有 估计 的 强 收敛 性 、 最 优 的 弱 收敛 速率 以 及 渐 近 正 态 性 等 . 


5.4.3 ”有 重复 观测 的 部 分 线性 测量 误差 模型 及 其 参数 估计 方法 
对 如 下 的 部 分 线性 测量 误差 模型 : 


{ Y =27B + g(t) +e, 


5.4.5 
DD ( ) 


其 中 , 8 是 一 个 p x 1 的 未 知 的 回归 参数 , g(t) 是 t 的 光滑 函数 , t 在 一 个 闭 区 间 上 
取 值 . 不 失 一 般 性 , t 可 以 取 值 于 [0,1], 正如 Fuller(1987) 所 指出 的 x e RP 是 一 个 
隐 变 量 . 假设 (uT, e) 有 零 均 值 以 及 正定 协 方差 阵 (AM). 

对 于 模型 (5.4.5) 中 g(t) = 0 的 情形 也 有 许多 学 者 讨论 过 , 对 没有 重复 观测 的 
情形 , Kendall 和 Stuart(1979), Anderson(1984) 和 Fuller(1987) 给 出 了 关于 测量 误 
差 方差 以 及 回归 系数 的 估计 的 讨论 . Carrol 等 (1995) 介绍 了 更 多 非 线性 测量 误差 
模型 的 参数 估计 . 一 般 来 说 , 由 于 模型 识别 的 需要 , 测量 误差 的 协 方 差 阵 通常 假定 
是 已 知 的 (或 测量 误差 对 回归 方程 误差 的 方差 比 是 已 知 的 ), 更 详细 的 说 明 参 见 文献 
(Fuller, 1987; Carroll, et al., 1995; Cui and Chen, 2003; Zhu and Cui, 2003). 但 是 这 
个 假设 看 上 去 是 不 实际 的 , 而 在 许多 应 用 中 , 在 某 个 或 某 些 实验 点 上 数据 能 够 重复 
观测 , 使 得 协 方差 阵 方差 变 得 可 以 估计 , 这 时 利用 测量 误差 协 方差 阵 的 估计 量 , 就 
能 够 建 回归 系数 的 相合 估计 , 即 这 时 测量 误差 协 方差 阵 已 知 的 假设 条 件 可 以 去 掉 . 
Zhang 和 Chen (2000) 获得 了 这 个 情形 的 有 用 结果 . 

事实 上 , 将 另外 的 协 变量 + 引入 经 典 的 线性 测量 误差 模型 是 必要 的 ( 它 一 般 是 
t 的 非 线 性 函数 ), 使 得 包含 非 线性 部 分 g(t) 的 模型 (5.4.5) 在 过 去 的 20 年 中 得 到 
很 大 的 重视 . 一 些 学 者 讨论 了 无 重复 观测 情形 下 , 模型 (5.4.5) 的 估计 和 统计 推断 问 
题 . Wolter 和 Fuller(1982) 考虑 了 非 线 性 测量 误差 模型 , 他 们 构造 了 参数 估计 , IFA 
在 已 知 测量 误差 协 方差 阵 的 条 件 下 得 到 了 估计 的 一 些 渐 近 性 质 . Cui 和 Li(1998) 考 
虑 了 部 分 线性 测量 误差 模型 中 参数 和 非 参 数 估计 问题 . Cui 等 (1998) 讨论 了 半 参 数 
非 线 性 测量 误差 模型 , 在 测量 误差 分 布 是 椭 球 对 称 且 协 方差 阵 已 知 的 条 件 下 构造 了 
估计 , 并 得 到 估计 的 渐 近 性 质 . Liang 等 (1999) 对 部 分 线性 测量 误差 模型 , 在 测量 
误差 协 方差 阵 已 知 , 并 且 隐 设计 变量 是 随机 的 假设 下 , 构造 了 相应 的 估计 , 并 得 到 
了 其 渐 近 性 质 . 尽管 他 们 提 到 了 使 用 重复 观测 来 估计 误差 协 方差 阵 , 但 是 他 们 仅 对 
独立 (设计 ) 变量 , 并 不 是 对 因 变 量 . Liang(2000), Zhu 和 Cui(2003) 考虑 了 测量 误 
差 在 非 参 数 部 分 的 情形 . Wang 和 Zhu(2001), Wang(1999) 分 别 构造 了 删 失 数据 和 
核实 数据 的 参数 和 非 参 数 函 数 估计 , 并 且 得 到 了 它们 的 渐 近 性 质 . Cui 和 Li(1998) 


5.4 ”部 分 线性 测量 误差 模型 及 其 参数 估计 方法 - 139- 


对 于 测量 误差 与 回归 方程 误差 的 方差 比 已 知 的 情形 , 利用 正 交 LSE 方法 得 到 了 参 
数 估计 和 非 参 数 函数 估计 , 同时 给 出 了 所 得 估计 的 渐 近 性 质 . 


1. 有 重复 观测 的 部 分 线性 测量 误差 模型 
令 {( Xi ti) Sj < nil <i <n} 服从 模型 (5.4.5), BI 


| My =P tah) te yes eni<icn, (5.4.6) 
Xi = Ui + Uij, 

RX (5.4.6) 为 有 重复 观测 的 部 分 线性 测量 误差 模型 ， 其 中 ,ri 表示 隐 变 量 , 并 具 
有 结构 zi = h(ti) + vi,h(-)( 未 知 ), ti 表示 已 知 的 确定 的 设计 点 , Xij, Yi; 是 可 观测 
的 ， eij =: (ub, eij)", 并 且 {vi} 是 独立 同 分 布 的 . 进一步 假设 Wij, Eij, Vi 是 独立 
的 (1 <j < ni), Ee = 0, Evi = 0, 已 (ua 二) = Zu, E(vivt) = De > 0, 其 中 ， 
Ee? = 02, 3 = E(enel) BARN. 这 里 所 考虑 的 模型 与 Liang 等 (1999) 所 考 
虑 的 有 很 大 的 不 同 , 因为 其 非 线 性 部 分 的 独立 变量 以 及 因 变 量 均 具 有 一 定 的 设计 结 
构 , 而 且 重复 观测 不 仅 对 独立 变量 , 也 对 因 变 量 , 其 估计 方法 和 证 明 技 术 也 有 很 大 
的 不 同 . 

2. 参数 及 其 非 参数 函数 的 估计 方法 


为 讨论 方便 起 见 , 引入 如 下 记号 : 对 任意 的 双 指 标 数列 {bil <j <ni,l<i< 
n} 以 及 单 指标 数列 {bil <i <n}, W 


1 n. 1 m m 7 n 
bi. = ns bij; b. = N 2 / bij; bij = bij iga X` wnk(ti)br-, (5.4.7) 
j=l i=1 j=) k=1 
并 且 1 n n 
b. = N 2. nibi, bi = bi — Ds ns (tbr 


其 中 ， ni 之 1,N 一 Sini 
i=1 
首先 构造 一 个 非 线性 函数 g(t) 的 伪 估 计 , 然后 将 部 分 线性 模型 (5.4.6) 变 成 一 
个 近似 的 一 般 线性 测量 误差 模型 . 取 权 函数 wni(t) 如 4.2 节 所 示 ， 


9° (t) = > wk (t)(Ye. — zE 9) (5.4.8) 


k=1 
作为 g(t) 的 伪 估 计 , 将 式 (5.4.8) 中 的 g*(t) RAR (5.4.6) 得 到 Y; = 27 B+ 
$ watts) We ~ 2EB) + ots) — 9%, +6, 即 有 


n n T, 
Yij 一 》 wnk(ti) Ye. = [e = D anatz B + o(ti) + 9° (ti) + eij: (5.4.9) 
k= k=1 
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因为 g(-) 是 光滑 的 , g(ti) = g(ti) = wnk(ti)g(th) = 0, IFA g(tk) = Ye. -s B- Ek., 
则 如 下 的 模型 可 以 由 式 (5.4.9) 直接 得 到 : 

Yij = 276 +E} Xij = Fit thy, (5.4.10) 
其 中 , et, = O(ti) + Gi. 显然 , 式 (5.4.10) 是 一 个 典型 的 线性 测量 误差 模型 . 注意 到 
测量 误差 ai, 以 及 模型 误差 < 不 再 是 独立 的 . 令 Zij = (X7, Yy), 并 且 


Bam Dy 2a)" = ( FF ) 
四 a aA ij ~ Zi (Zi O RE Gand 


1 eet ~ ~ ~ Tai Pin Pon 
ra= hy -Žu 2.) = ( i 


T 
i=1 j=1 Py, Fan 


当 样本 可 以 在 模型 的 每 个 设计 点 上 重复 抽取 时 , 则 对 已 知 误差 协 方差 阵 的 假设 可 以 
去 掉 . Cui(2004) 构造 了 回归 参数 、 模 型 的 误差 方差 、 非 参数 函数 的 估计 量 , HER 
些 正则 条 件 下 , 证 明了 上 述 所 有 的 估计 量 是 强 相合 的 , 同时 获得 了 回归 参数 的 估计 
量 的 渐 近 正 态 性 . 


5.5 变 系 数 和 随机 效应 测量 误差 模型 及 其 参数 估计 
5.5.1 变 系数 测量 误差 模型 


线性 统计 模型 在 统计 学 理论 中 扮演 着 十 分 重要 的 角色 , 在 一 般 线 性 模型 中 , 只 
认为 因 变量 的 测量 或 模型 是 有 误差 的 , 没有 考虑 到 自 变量 的 测量 误差 , 这 就 导致 了 
在 一 些 实际 问题 中 简单 线性 统计 模型 的 不 足 , 使 得 分 析 所 得 结论 与 实际 相距 甚 远 . 
为 了 克服 此 类 问题 , 人 们 引入 了 线性 测量 误差 模型 , 对 这 种 模型 的 研究 已 经 有 了 很 
长 的 历史 . 近 半 个 世纪 以 来 , 由 于 其 形式 简洁 又 有 较 强 的 适用 性 , 它 在 许多 应 用 领 
域 发 挥 着 重要 作用 , 对 它 的 研究 也 在 进一步 深入 , 而 在 许多 实际 问题 中 , 上 述 变 量 之 
间 的 线性 关系 并 不 总 是 保持 不 变 的 , 在 多 数 情 况 下 , 其 线性 系数 B 将 随 另 外 一 个 协 
变量 (如 时 间 、 温度 等 ) 而 变化 , 如 某 年 龄 段 上 人 的 身高 和 体重 之 间 的 关系 , 林业 中 
的 树木 平均 胸围 与 树 高 的 关系 , 车 辆 在 一 段 路 面 上 行驶 速度 与 耗 油 量 之 间 的 关系 ， 
股票 市 场 中 小 盘 指 数 与 大 盘 指数 的 关系 , 在 某 时 刻 t 通常 都 是 线性 的 , 但 这 种 线性 
系数 随时 间 的 变化 而 有 所 变化 ; 或 不 能 得 到 关于 一 个 模型 在 所 有 时 间 段 上 的 样本 ， 
而 只 能 用 在 一 些 时 间 点 上 能 观测 到 的 数据 来 估计 这 一 时 期 中 变化 的 线性 模型 系数 
在 任 一 时 刻 的 值 . 这 就 是 所 要 讨论 的 变 系数 结构 关系 测量 误差 模型 , 其 形式 如 下 : 
{ Y (t) = bolt) + 7B, (t) +e, 


piwal 
大 一 了 十 也， ) 
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其 中 , X Ala 都 是 R? 中 的 随机 向 量 , Y 是 一 维 实 随机 变量 , t 是 一 实 变量 (可 以 是 
时 间 温 度 等 ). 假定 t 在 一 个 闭 区 间 上 变化 , 不 失 一 般 性 , WA te [0, 1]. e 是 不 可 观 
测 的 随机 误差 , u 是 不 可 观测 的 p x 1 维 随机 误差 向 量 , 满足 
E{(e,u?)™] =0, Cov(u) = Xo, E(e’)=0’, 
其 中 , So > 0 是 一 个 已 知 和 矩阵 , oz? > 0 为 未 知 参数 , B0(t), B1(t) 是 关于 t 的 有 界 连 
续 函 数 , 称 之 为 变 系 数 . 关于 变 系 数 线性 测量 误差 模型 (5.5.1) 的 更 多 描述 或 例子 
可 参见 文献 (欧阳 光 , 2005; 崔 恒 建 和 王强 , 2005) 等 . 
5.5.2 ”方差 比 已 知情 况 下 变 系 数 函 数 的 估计 方法 
W tite, ,tn 是 (0,1) PH n PRR, 在 每 个 点 t; 处 作 观测 , 获得 样本 观 
WE (XT, ¥i)(¢=1,2,---,n). BX, 的 真实 值 为 zi Yi 的 真实 值 yi, 并 且 满足 
(XE,Y) = (£7, yi) + (ul,e:), i=1,2,---,n, 
Hp, wi, ei 是 观测 误差 , xz; 是 随机 向 量 , w 是 随机 变量 , 并 且 满 足 yi = polti) + 
zz 3, (ti), 则 模型 为 


X (tj) = (ti) + ui, 

Y (ti) = y(ti) + ei, 
其 中 , (a) uT, e:)(1 < i< n) 独立 , zi(1 <i<n) 独立 有 相同 的 期 望 和 协 方差 阵 且 
与 {(uz,ei), 1 <i < n} 独立 . 记 


| yi = olti) + wi B1(ti), 


u= E(xi), DZD=Varzri), l<ign, 
Bl(es ul) =0, Covi(er,ul)"] = oT pu, 0? >0,1=1,2,--- n 


首先 估计 给 定 的 任 一 如 e (0,1), 采用 加 权 正 交 回 归 方 法 来 构造 此 点 处 b, 6 
的 估计 . 给 定 如 下 的 权 函 数 wii(to)(i = 1,2,… ,n) 满足 
(1) Wni(to) > 0; 


(2) > Wni(to) = 1, 


可 选 定 适当 的 有 界 概率 密度 函数 Ky (ZAK RR), 再 选择 窗 宽 h,,， 由 事先 选 
HENRI O S ti Stz <- <tr <1 KR to € (0,1) 构造 权 函 数 


onlto) = 人 wn(s, to)ds, 
其 中 ， 


t t t;_ a 2 i 
Ay = 0,232), a, | 和) i = 2,... n—1, 
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a = [eat i) 
a(s,t)= — =k) K(SE*) Ho< st< ha} 
ee ences) 


在 选择 窗 宽 hn > 0 时 , 应 注意 hn > 0 且 随 ”的 增 大 而 减 小 , 即 有 hn € (0,5): 
4n— co 时 , hn 一 0. 假设 在 固定 to 点 处 真实 的 参数 和 线性 关系 为 y = olto) + 
x7 B, (to), 不 妨 把 Bo(to), B, (to) 简 记 为 bBo: By; 则 此 超 平 面 为 y = o + x™B,, FER 
用 加 权 正 交 回归 方法 , 即使 得 各 观测 点 到 此 回归 平面 的 距离 的 加 权 平 均 和 达到 最 小 
点 的 Bro By 作为 Bo By 的 估计 . 为 叙述 方便 起 见 , 引入 如 下 记号 ， 


pS A a Y; = Y; SS 


i=1 i=1 

n Sass: n ~T 

X wnilto)Y:Y; Y wnilto)Y: X; 
A, = i=1 t=1 


Sento) RF Y, sisi (to) Xi x. 


i=1 
则 点 (Xi, Yi) 到 超 平面 y = 6) +078, 的 距离 的 平方 为 42(t0) = Hoha 
1 
记 d? (to) 的 加 权 平 均 为 


n n + E T E 
(Bo, B1) = Y` wnalto)d (to) = Y wni (to) = Bo = Pay 
i=1 ii 1+ || A, || 


则 Go, 8, 的 估计 定义 为 
(Bro: Bni) = arg min Q(bo , bı). 


& ae = 0 f bo = > wni(to)Yi 一 È wnilto)X Fbs, 将 其 代入 Q 得 


Q(b:) = S onto Ë Ry 


n 


n 二 -十 

wni(to)Y; Wnilto)Y: X; 

_ (1,—b1) 2 a ( 1 ) 

=i ib j2 n n Serer os 
l : So wnil (to) X; Y; AN h 


i=1 i=1 
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(1, bi an ( —b; ) 


7 1+ || bı ||? i 


<a) 


则 nı = arg min Q(b1), 这 等 价 于 = 0, Bp 


ni 


(1+ Il Bas I (E ontok Yi 一 Fiulo XiX; TBn) 


i=1 
> wni(to)Y:Y; > wnilto) fX; 


和 1 ~ 

+ (Lf 3) Fa T ( 一 局 ) Bni = 0. 
Y wnilto)X:Y; Seut A, ni 

i=l i=l 


注 ”、 当 p= 1 时, BB,1 有 显示 表达 , 但 当 p > 2 时 , Bi 无 显示 表达 式 . 定义 
Bo,o? 的 估计 为 


.2 S (Yi — Bno ~ XT Bas)? 
Bro 一 Lon (to) Yi 一 Yom to) XT Bris C= Donita 
至 此 就 得 到 了 bo, 610? 的 估计 Bro, Bai, 62 
欧阳 光 (2005), 崔 恒 建 和 王强 (2005) 分 别 对 z 为 1 维和 p 维 的 情况 进行 了 讨 
论 , 并 在 方差 比 (或 可 靠 性 比 ) 已 知 的 可 识别 条 件 下 , 获得 了 参数 bolto), B1(to) IE 
加 权 最 小 二 乘 估计 , 并 在 iid 的 情形 下 仅 证 明了 估计 的 相合 性 . Cui 和 Guo (2006) 
在 比较 弱 的 条 件 下 获得 了 这 种 估计 具有 渐 近 正 态 性 . 


5.5.3 ”测量 误差 u 方差 已 知情 况 下 变 系 数 函 数 的 估计 方法 

H tita,- ,tn (0,1) PM n PRA, 在 每 个 点 ti 处 作 观 测 , 获得 样本 观 
测 值 (XT, y;)? (i =1,2,---,n). RX; 的 真实 值 为 zi, Ye 的 真实 值 为 yi, 并 且 满 足 
如 下 模型 : 


i 5 Ti Ui, 


Yi = Polti) + £7 A, (ti) + ei, 


KP, (Œ, ule) < i < n) MY, zi(1 <i < n) 独立 有 相同 的 期 望 和 协 方差 阵 且 
45 {(ul,e:)|l <i < n} 独立 , E[(wT,ei)T] = 0，Cov(ui) = Xo (1 < i < n). 目的 是 
估计 给 定 的 任 一 to € (0,1), 求 此 点 处 6o =: Bolto), A, =: Bi(to) 的 估计 , 同样 采用 
调整 的 最 小 二 乘 估计 方法 , 并 给 定 5.2 节 中 的 权 函 数 wni(to)(i = 1,2,… ,n)( 有 关 
wnilto) 的 选取 及 其 性 质 可 详 见 文献 (Cui, et al., 2002). 
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假设 在 to 点 处 真实 的 线性 关系 (回归 超 平面 ) X y = fo +278, 点 (Xi, YY) 
到 超 平面 y = fo + zTB; 的 调整 平方 距离 定义 为 


d;(to) = (Yi — Bo — XTB)? — BT Zob- 
RF di(to) 的 加 权 平 均 为 


Q(bo, B1) = >》 wni(to)di(to) = X- wnilto)[(Yi — bo — XEB)? — BT X081]. 
t=1 i=1 
所 谓 参数 调整 的 加 权 最 小 二 乘 估计 方法 , 就 是 使 得 各 观测 点 到 此 回归 超 平面 的 加 权 
调整 平方 距离 和 达到 最 小 点 的 Bno, Bn 作为 Bo, B, 的 估计 , BA 


(Bn0, Bn) = argmin Q(bo, b1). 
bo,bi 


令 OQ (bo, bı) 


a OQ (bo, bı) = 4 Fs 
bo = 0, Ob | 一 0, 则 得 Bo, By 的 估计 分 别 为 


n Ti : 
、 一 一 人 a 
Bni = X wnilto) X: X; = Xo 》 wni(to) XiY, 
i=l 


i=1 
n 


Bno = 》 wni(to)¥i — X- wni lto) XT Bni, 
i=1 i=l 


其 中 , X, = AE 3 RES, A AD > wnilto) Yn “+” RERE SI. 
o? 的 估计 取 为 


62 = Q(Bno, Bar) = 》、wni(to)l(G — Bno — XP Ân)? — Bar Zonal: 
i=1 


至 此 就 得 到 了 o, 81,07 的 估计 Bro, Bai, 62. 

崔 恒 建 (2007) 在 测量 误差 u 方差 已 知 这 一 可 识别 条 件 下 (注意 它 与 可 靠 性 比 
已 知 的 可 识别 条 件 有 本 质 的 区 别 , 通常 u 的 方差 可 通过 经 验 或 历史 数据 在 确定 ), 对 
一 般 的 p, 采用 调整 的 加 权 最 小 二 乘 估计 方法 来 估计 变 系数 在 任 一 固定 点 toe [0,1] 
的 值 fo(to), B1(to), 并 给 出 了 o? 的 估计 , 证 明了 各 估计 量 在 较 弱 的 条 件 下 不 仅 具 有 
强 相合 性 , 而 且 具 有 渐 近 正 态 性 . 
5.5.4 随机 效应 测量 误差 模型 


在 生物 医学 、 社 会 学 、 经 济 学 的 纵向 数据 分 析 中 , 混合 效应 模型 近年 来 受到 了 
更 多 的 重视 . 在 这 一 领域 , 文献 (Diggle, et al., 2002) 是 一 本 相当 全 面 的 著作 , 当然 还 
有 一 些 有 关 混 合 效应 模型 估计 的 论文 , 如 文献 (Davidian and Giltinan, 1993, 1995; 
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Demidenko and Stukel, 2002; Vonesh, et al., 2002). Zhong (2002) 研究 了 当 固 定 
效应 有 度量 误差 时 的 估计 问题 . 在 正 态 性 假定 下 , 他 们 利用 纠正 得 分 法 得 到 了 回归 
参数 的 估计 量 , 并 且 证 明了 渐 近 正 态 性 . 然而 在 随机 效应 下 也 有 误差 , 同时 协 差 阵 
不 服从 渐 近 正 态 性 , 估计 的 相合 性 是 否 仍然 成 立 也 不 清楚 . Cui, Ng 和 Zhu(2004) 在 
固定 效应 与 随机 效应 的 度量 误差 下 考虑 一 个 更 复杂 的 模型 . 考察 如 下 模型 : 
Y=2rBo+z'Yy+e, 
X=a2+4u, (5.5.2) 
Z=z+v. 


称 之 为 随机 效应 测量 误差 模型 , 其 中 , 6o 与 7 分 别 为 p 维 固定 效应 与 9 维 效应 , 另 
Sp Ey = p, 与 Cov(Y) = D > 0 都 为 未 知 量 . 在 这 个 模型 中 , X,Y, Z 为 仅 有 的 要 观 
察 的 随机 变量 , 度量 误差 为 wu,wv, 并 且 Eu = 0, Ev = 0, 它们 的 协 差 阵 已 知 且 分 别 为 
Eau > 0, Xo > 0, e 为 模型 误差 且 E(e) = 0, Var(e) = o?( 未 知 ), 同时 x, z,7, u,v, € 
独立 . 由 于 u, 未 知 , 可 把 它 也 看 成 一 个 参数 , 从 而 模型 可 化 为 


Y = (zT,zT)B+zT(T7Y 一 Ar) 十 e， 
X=gz+u, 
Z=z+v, 
其 中 ， B= (B7, uz n 
5.5.5 ”随机 效应 测量 误差 模型 中 参数 的 估计 方法 
在 模型 (5.5.2) F, 抽 得 独立 同 分 布 数据 集 Yi, Xi, Zi 有 
Yi = (17,27 )B + 27 (Yi — Hy) + ĉi, 
Xi = zi + ui, 
Zi = Zi + vi. 
首先 , 基于 矩阵 变换 及 求 期 望 得 到 8,02, D 的 矩 估计 . 由 模型 (5.5.2) 得 到 (zT, 27)Y 
= (x*, 2°)? (æT, 27)8 + (wT, z7)T2T(y — w,) + (zT,zT)Te， 取 期 望 El(at, 
2T)Y] = Ef(x?, z")! (æT, zT), 由 于 El(ut,v™)TY] = 0, E[(£T, z7)T (æT, zT)] = 
E((X*,Z")7(X7, ZT)] — diag( Xu, Lo). 关于 B 的 估计 方程 如 下 : 
E[(XT, Z*)7(X7, GT)] — diag( Xu, Bu)B = El(w™, z1)Y], 


因而 6 WHEA 


7 Ye ; og A ao 
p= {23 6h een xP] —din Ba. 2)} LIP 


i=1 
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上 述 估 计量 也 是 线性 误差 模型 中 的 一 般 估计 量 ， 参 见 文献 (Fuler, 1987). 对 于 
o2, 注意 到 E[Y — (XT,ZT)B]2 = ElzT(y — m,y — w,)7z + e — (ut, v7) A)? = 
tr(DE(zzT))+0?+ 6" diag( Zu, Zv)B, 从 而 o? = 五 了 一 (XT, GT)B]? — PB" diag(Lu, 
D,)B —- tr[D(EZZ" — E,)]). 0? 的 估计 量 取 为 

en 3 — (XT, ZT)ĝ} 一 B diag(Zu, Zv)B- BY +tr(DZ,). 


#=1 
下 面 给 出 D 的 估计 . 注意 到 D = VBE”? 4 T= 一 - (zi 一 歹 )(2; 一 
ZT- Dy te De 的 估计 量 , 其 中 ,到 = 元 Zi 令 


isd i 
Fg Qij, z bi jks q> 1, 
ng CET > : 
其 中 , ay = (PEL oor eT, ES, 1; — BT EP ol, bir = 
(iF 5, MA ere ae fee -Z ))2 一 ES MS S, -Ey gyon 


lr- E (TE P oS atta 1; e RY 表示 第 j 个 元 素 为 1, 其 余 元 素 全 为 0 
的 单位 向 量 , 1 < ; < dg 以 及 


ge) Ni _XTrB2_ lVy xTh? 
rp Cn | 
[EZ — ZZ- ZT Ez) De Cove [aT vv hy, vv] 82°”, 
WH q> 1 iY, 
-1/2 |1 4 a , a = (6 — 1)tr(A) a —1/2 
Ded Bt aap e aa i S 


4 q=1 时 , 可 简化 为 D = A/(â- 1). 

注 1 WẸ zo~ N(uz, Xz), PAZ ~ N(0,I;), a=3,b=1, DA Dp lAr". 

注 2 DMa 可 能 不 是 正定 的 , 如 果 这 样 的 话 , 只 考虑 其 正定 的 部 分 . 注意 
并 没有 对 Dy 的 结构 作 任何 假定 , 所 以 这 里 的 估计 问题 是 一 个 无 结构 问题 . FET 
法 提供 了 一 个 简单 、 便 捷 的 估计 , 证 明了 估计 量 在 较 宽 松 的 条 件 下 具有 渐 近 正 态 性 . 
另 一 方面 , 如 果 DD 是 有 结构 的 , 即 有 关于 D 的 先 验 信息 , 那么 就 应 该 使 用 这 些 先 
验 信 息 来 获得 关于 D 的 估计 量 . 

Cui, Ng 和 Zhu(2004) 考虑 线性 混合 效应 模型 (这 个 模型 有 固定 或 随机 效应 下 
的 度量 误差 ), 然后 得 到 了 一 些 有 用 参数 估计 量 的 矩 , 同时 在 一 定 的 条 件 下 , 得 到 了 
估计 量 的 强 相 合 性 及 渐 近 正 态 性 , 而 且 获 得 了 渐 近 协 差 阵 的 强 相 合 估 计量 . 
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5.6.1 ”有 辅助 变量 的 测量 误差 模型 


实际 中 , 经 常会 出 现 具有 测量 误差 的 回归 模型 , 这 也 经 常 出 现在 统计 文献 中 . 
由 于 在 测量 误差 存在 的 情况 下 , 最 小 二 乘 估计 (LS) 不 是 相合 的 , 因此 , 提出 了 一 些 
其 他 的 修正 方法 . 例如 , 引出 修正 最 小 二 乘 (ALS) 的 矩 方法 可 以 用 来 纠偏 , 另外 一 
种 似 然 方法 会 得 到 具有 正 交 距 离 的 最 小 二 乘 (OLS), 还 有 模拟 外 推 方法 (SIMEX), 
在 线性 模型 中 , 它 与 修正 最 小 二 乘 等 价 , 但 它 也 适用 于 非 线 性 测量 误差 模型 , 详细 
可 以 参见 文献 (Fuller, 1987; Carroll, et al., 1995; Cook and Stefanski, 1994). 考虑 测 
量 误差 和 辅助 变量 (如 时 间 ) 一 起 被 观测 的 线性 测量 误差 模型 . $ (E, n) E€ R? x R? 
为 所 感 兴趣 的 满足 下 面 线性 关系 的 变量 : 


n = €" By +27 ao, (5.6.1) 


其 中 , z e Rs 为 协 变量 . ARITA (En) 的 测量 值 而 得 到 数据 集 { (zi, yi, zi), 1< 
i<n}, 其 中 , a; = E(t) + ui yi =n(t) + vi, ti EB i RR, w 和 wi 是 测 
量 误差 , 称 模型 (5.6.1) 为 具有 辅助 变量 的 线性 测量 误差 模型 . 假定 zi 的 观测 没有 
RE, 所 要 考虑 的 是 未 知 参 数 (Bo, ao) 的 估计 问题 . 

模型 的 一 个 重要 组 成 部 分 就 是 € 和 7 都 是 与 时 间 相 关 的 . 对 于 给 定 的 时 间 t, 
它们 可 视 为 某 些 变量 的 (未 知 ) 总 体 均值 . Cai 等 (2000) 在 估计 awareness 和 某 些 
产品 的 电视 广告 的 受 欢迎 程度 之 间 的 关系 时 给 出 了 使 用 这 一 模型 的 例子 . 


5.6.2 “参数 的 去 噪 估计 方法 
为 统一 起 见 , 改写 式 (5.6.1) 为 


yi = EF Bo + Z7 oo + vi, (5.6.2) 


其 中 ,上 = Elti) 它 受 测量 误差 的 影响 , 并 且 v; 和 u 是 相互 独立 的 误差 变量 . 式 
(5.6.2) 的 普通 LS 是 有 偏 的 且 不 是 相合 的 . Cai 等 (2000) 利用 小 波 的 方法 过 滤 掉 观 
测 变 量 中 的 噪音 . > 去 和 了 立 分 别 表示 变量 zx 和 y 去 噪 后 的 变量 , 在 对 Elt) 和 nlt) 
施加 一 些 光 滑 条 件 下 , 将 最 小 二 乘法 用 于 去 品 后 的 变量 , 可 以 得 到 Bu。 的 相合 估计 
(DLS 估计 ). 

Cui 等 (2002) 考虑 了 类 似 的 DLS 估计 , 对 zx 变量 去 噪 而 不 对 y 变量 去 噪 . 这 
使 得 模型 (5.6.2) 更 接近 于 传统 的 EV 回归 模型 的 结构 . 更 重要 的 是 , 对 y; HAR 
并 不 能 提高 估计 的 表现 . 其 次 , 利用 ( 卷 积 ) 核 型 光滑 化 替代 小 波 去 噪 . 核 型 光滑 化 
在 统计 界 更 为 人 所 熟知 且 易 于 分 析 , 而 且 在 合适 的 条 件 下 , 有 关 DLS 估计 的 渐 近 
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正 态 性 的 结果 对 于 像 Antoniadis 等 (1994, 第 1340 页 ) 使 用 的 小 波 去 品 这 样 的 情形 
依然 成 立 . 

为 了 详细 说 明 式 (5.6.1) MR (5.6.2), 进一步 假定 w; € R, vi € 民 RAW 
{i 0, 方差 分 别 为 Su 和 o2 的 两 个 独立 随机 样本 . 不 失 一 般 性 , 假定 观测 值 取 在 
0=to Sti Stz S- <tr, <1, 其 中 ,t; 可 以 是 时 间 , 也 可 以 是 关于 上 Al 的 任意 
其 他 输入 参数 . 注意 到 还 可 以 在 该 构造 中 利用 t 的 任意 单调 光滑 变换 . 下 面具 体 说 
明 关 于 Ti 的 核 型 光滑 过 程 . 令 K() > 0 是 对 称 的 Lipschitz 4%, 支 集 在 [~1,1] E, 


并 有 f. K(z)dz = 1. & wa(s,t)(0 < s,t < 1) 是 仅 依赖 于 {ti, ta} 的 权 函数 ， 
-并 且 满 足 [ wn(s,t)dt = 1 对 任意 0 < s < 1 成 立 . 具体 可 取 
0 


1 s-t s+t 2—s—t 
wn(s,t) = lx ( h ) +K( h ) Hocetem +K( h ) tu-renten| ， 


其 中 , 对 某 个 光滑 参数 h = 各 满足 he (0,1/2), 并 且 当 了 一 œ 时 , h > 0,nh/logn 
一 co, 那么 可 以 给 出 去 噪 后 的 变量 F, 


n 


Ži = Sal Wn (s, ti)ds, 


j=1 “Aj 
其 中 , Ar = [0, (ti + t2)/2),A; = [(tj-1 + t;)/2, (tj + tj+1)/2)(2 < j < n —-1),An = 
[(tn-1 十 如 )/2,1]， 相 对 于 Gasser 和 Müller(1979) 使 用 的 光滑 方法 , Æ (s,t) 接 
近 边 缘 (0 或 1) 处 所 加 的 项 是 为 了 在 边界 处 进行 核 光 滑 的 纠偏 ， 为 方便 起 见 , 记 
X = (zl ,Tn)T € R™?, X = (Z1,--- ,En)T € R™?, Z = (21 ,2n)T € R™?, 
= (yi,**+,Yn)” € R”, E = (€),---,€,)7 € R™™?, U = (u1, , Un)T E R*?, 
V = (v, 0n)! € R”, ANS 


1/ sts STZ a ee ee 
a, =2( Pa ZT J | Ox 22 ) 
由 文献 (Cui, et al., 2002) 可 知 当 n 一 ce 时 , 依 概 率 成 立 sup | 到 — &(#i)| 一 0 和 
Qn 一 Qn 一 0. DLS 方法 通过 在 (Zi, zi) 上 对 y 作 回 归 得 到 


B = D \ 一 1 x 
(5) -oa (5 )r 


Cui 等 (2002) 着 重 讨论 这 种 去 噪 估计 的 渐 近 分 布 , 证 明了 其 渐 近 分 布 为 正 态 分 布 ， 
并 说 明了 与 不 使 用 任何 辅助 信息 使 用 相 比 去 噪 会 提高 有 效 性 , 同时 将 这 些 结果 推广 
到 误差 相依 和 比 最 小 二 乘 更 具 稳 健 性 的 一 类 广义 M 估计 的 情形 . 
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5.7 ”测量 误差 模型 中 参数 置信 区 域 的 经 验 似 然 构造 方法 


5.7.1 ”线性 测量 误差 模型 中 参数 置信 区 域 的 经 验 似 然 方法 


对 于 线性 测量 误差 模型 Y; = eTo +v, Xi = zi 十 ts HP, vi 是 iid 的 具有 
均值 0 且 连 续 可 导 的 分 布 函数 的 误差 , X: AE p 维 可 观测 随机 向 量 , z; 为 p 维 不 可 
观测 随机 向 量 , By 为 p x 1 未 知 参 数 向 量 , p; 是 p 维 iid 的 不 可 观测 随机 误差 . z 
与 (vw,uT)T 独立 . 令 Vz = Cov(z), Ly = Cov(w). 为 了 模型 的 可 识别 性 , BRD. 
正定 且 Ey = Ey/Var(v) 为 一 个 已 知 的 p x p 的 正定 矩阵 . 不 失 一 般 性 (否则 , 用 
2T12X 代替 X), 假设 


E{(v,uT)T} =0, Cov[(wauTI)T] = 07 Ip41, 


这 意味 着 v 和 ww. 有 相同 的 离 差 参 数 o? > 0. 

EV 回归 模型 中 一 个 重要 的 问题 是 当 w 和 u 的 分 布 未 知 时 , 如 何 构造 Bo 的 置 
信 区 域 . 在 非 参 数 的 假设 下 , 标准 的 方法 就 是 基于 参数 Bo 的 估计 的 渐 近 正 态 性 , 通 
过 估计 其 渐 近 协 方差 阵 来 构造 置信 区 域 . 在 没有 测量 误差 的 情况 下 , 线性 模型 的 协 
方差 阵 是 很 容易 估计 的 . 但 是 在 EV 线性 模型 中 , 由 于 观测 到 的 协 变量 X FER 
Eu, 从 而 导致 协 方差 阵 的 形式 很 复杂 . 直接 估计 可 能 会 导致 很 大 的 误差 , 并 导致 
置信 区 域 有 更 大 的 覆盖 错误 率 , 而 且 并 不 能 保证 在 有 限 样本 的 情况 下 , 估计 的 协 方 
差 阵 是 正定 的 , 当然 可 以 通过 bootstrap 来 构造 6u 的 置信 区 域 , 但 是 正如 所 有 的 多 
HE bootstrap 置信 区 域 一 样 , 必须 先 主观 地 给 出 区 域 的 形状 和 方向 . 

经 验 似 然 是 由 Owen(1988,1990) 提出 的 一 种 区 别 于 bootstrap 的 构造 非 参 数 置 
信 域 的 方法 , 它 不 需要 像 bootstrap 那样 以 相同 的 概率 权重 重 抽 样 , 而 是 通过 在 一 
系列 反应 所 感 兴趣 的 量 的 特征 的 约束 条 件 下 给 出 多 项 式 似 然 ， 经 验 似 然 的 一 个 重 
要 特性 就 是 它 是 根据 数据 自动 决定 置信 区 域 的 形状 和 方向 , 而 且 通 过 它 内 在 的 最 优 
化 , 而 不 用 估计 协 方差 阵 就 可 以 实现 标准 化 . 另外 , 已 经 证 明 在 很 多 情况 下 , 经 验 似 
然 置信 区 域 是 存在 Bartlett 修正 的 , 也 就 是 说 , 一 个 简单 的 均值 调整 就 可 以 将 覆盖 
错误 率 减 小 一 个 量 级 . 经 验 似 然 也 被 用 于 由 估计 方程 定义 的 参数 (Qin and Lawless, 
1994). Owen(1991) 给 出 了 不 存在 测量 误差 的 情况 下 , 普通 线性 模型 参数 Bu 的 经 
验 似 然 置信 区 域 , 并 导出 了 非 参 数 形式 的 Wilks 定理 . Chen(1993, 1994) 给 出 了 覆 
盖 精 确 度 和 置信 区 域 的 Bartiett E. - 

Gao 和 Cui(2001) 利用 经 验 似 然 方法 构造 了 参数 的 经 验 似 然 比 置信 区 域 , 在 一 
定 条 件 下 , 证 明了 EV 线性 模型 的 非 参数 Wilks 定理 . Cui 和 Chen(2003) 还 进一步 
给 出 了 覆盖 精确 度 和 置信 区 域 的 Bartlett 修正 . 对 于 线性 测量 误差 模型 ，B。 的 估 
计 是 通过 解 一 个 得 分 方程 得 到 , 这 个 得 分 方程 是 所 有 数据 点 到 超 平面 R?+! 的 平方 
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正 交 距离 的 和 . 这 个 得 分 方程 有 多 于 两 个 的 解 , 并 且 只 有 一 个 是 真正 的 解 , 所 以 经 
验 似 然 必 须 有 一 定 的 限制 来 去 掉 多 余 的 解 . 将 参数 空间 限制 在 一 个 区 域 上 , 使 得 分 
方程 有 一 个 收敛 到 Bo 的 唯一 解 . 

设 {(Xa, Y1), (X2, Y2), , (Xn,Yn)} 是 来 自 线性 测量 误差 模型 的 独立 同 分 布 的 
随机 变量 . 由 广义 最 小 二 乘 方法 得 到 的 B 的 估计 为 


> are min (Ki — Xi BY? 
n = arg pain rr 


其 中 , (Y; — X7)2/(1+ IBID 为 点 (Xi, Y:) 到 平面 Ze = {z|z € Re+, (87, -1)z = 
O}, j - || 表示 欧 氏 模 . 上 式 说 明 G,, 是 下 面 这 个 得 分 方程 的 根 : 


1 n 

‘~ XT 
其 中 Z:(8) = XY: -X78) + HHA BH BLZi(Boj] = 0. 令 pr ,pn 为 
求 和 为 1 的 一 列 非 负 数 , 则 在 B 处 的 -2 倍 对 数 经 验 似 然 比 为 


(B) = -2 min, o 2 log(npi). 
引入 Lagrange RTF A cR”, WA 


(B) = 2} log{1 + ATZ:(8)}, 


é=1 
其 中 , 和 满足 È aa = 0, 则 在 条 件 Ellul + lult] < +00 F, 4 no 


时 有 (6o) Ax, 即 非 参数 形式 的 Wilks 定理 成 立 . 在 标准 的 情况 下 , 置信 水 平 为 
a 的 经 验 似 然 置信 区 域 为 


CRao = {Bol€(Bo) < ca}, (5.7.1) 


ca 满足 P(x? < ca) = a. 但 是 , 对 于 测量 误差 模型 这 个 置信 区 域 是 不 合适 的 . 因为 
E[Zi(B)] = 0 4 Bo 4 0 时 至 少 有 两 个 解 , 故 这 个 经 验 似 然 表 面 是 一 个 多 面 模型 , 而 
式 (5.7.1) 给 出 的 置信 区 域 是 不 连通 且 不 相合 的 . 为 了 克服 这 个 问题 , 把 B 限制 在 
一 个 子 参数 空间 


(Y — XTB)? 


a= {pje + lel | sue Ds 


5.7 ”测量 误差 模型 中 参数 置信 区 域 的 经 验 似 然 构造 方法 PS 
其 中 , ti (B) 表示 矩阵 B 的 最 小 特征 根 . 可 以 证 明 E[2Zi(B)] =0 E8 ER 5 B= Bo 


等 价 . 定义 
m= {aldo a ee Merete 
AQ 的 估计 . 可 以 证 明 2, 是 开 凸 区 域 , 并 且 当 ?一 co 时 ,P(Bo € Mn) > 1. 因此 ， 
Bo 的 合适 的 置信 区 域 为 
CRa,et = {BIB E Rn, &(B) < ca}. 
这 个 经 验 似 然 置信 区 域 是 “ 渐 近 凸 的 ”, 而 且 在 一 定 的 条 件 下 有 


P(Bo E€ CRa,et) = & — acapan! + O(n 3/2), 


RE, WO 为 xd 分 布 的 密度 函数 ，。 = | RWI W,)? - ZEWTW))), 
lim P(B € CRa,et)=0 对 于 任意 固定 的 B460, lim P(B, €CRa,e1) = POÈ(IYIP) 
< ca), 其 中 , By, = By + ESPE y GND 表示 自由 度 为 了 的 非 中 心 X 2 分 
布 . 不 仅 如 此 , CR。,。 还 是 可 以 Bartlett 修正 的 , 即 在 一 定 的 条 件 下 有 

P(L(Bo) < ca(1+sn 0)) = a+ O(n-?), 


其 中 , P(x? < ca) = a, s X a Ra 的 ma/ 相合 估计 . 在 实际 应 用 中 , 可 以 给 
出 a 的 ni/2 相合 估计 . > B, 为 Bo 的 ni2 相合 估计 , 令 Êi = Zi (Gn) $o = 
= È 2:2: X Eo 的 估计 , 则 a 的 估计 为 bu = p71 (3n n-! Lia 55°; P—5(In(n— 


T a-l 


DI Say Z1), IU Ao 的 Bartiett 修正 时 信 区 城 为 
CRa,bcet = {BIB € Rn, E(B) < call + an-1)}. 
5.7.2 ”部 分 线性 测量 误差 模型 中 参数 置信 区 域 的 经 验 似 然 方法 
对 部 分 线性 测量 误差 模型 
Y=a2'8,+9(t)+v, X=a2+u, 


其 中 , 不 失 一 般 性 , 假设 te (0,1), g 为 t 的 未 知 的 光滑 函数 ，Qin 和 Feng(2003), 
Shi 和 Lau (2000) 分 别 构造 了 部 分 线性 模型 Y = 278+ g(t) +v PBR p, MA 
似 然 置信 区 域 , 并 证 明了 置信 区 域 的 相合 性 ，Cui 和 Kong(2006) 把 经 验 似 然 比 方 
法 应 用 到 部 分 线性 测量 误差 模型 中 , 给 出 了 参数 B, 的 -2 倍 对 数 似 然 比 的 非 参 数 
Wilks 定理 . 带 约束 的 经 验 似 然 比 置信 区 域 的 构造 方法 如 下 : 
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设 {Xi = (Xa, Xi ,Xip),ti Yot = 1,--- n} 是 来 自 部 分 线性 测量 误差 
模型 的 容量 为 n RA. 4 g(t) 未 知 的 时 候 ， 定 义 一 系列 概率 权 函 数 wri(t)， 


它 满足 È 人 = 1(1 < i < n)， 例 如 , 可 以 将 其 取 为 核 权 函数 wni(t) = 
大 

K(t=t)/an) 其 中 KO 为 概率 密度 函数 ， 则 g 的 “名 义 * 估计 可 定义 为 

X K((t — t;)/an) 


n 


Gn(t) > wni(t)(¥; — sT Bo), 则 在 模型 中 将 g(t) 替换 成 nlt) 得 到 如 下 模型 : 


下 = 二 Bo 十 这， Xi= Hit ti, 
HH, Ý = Y; — 名 wn; (ti)Y¥j, Xi = Xi- 名 Wnj (ti) X j, Ži = Di 一 2 ni (ti)arj, Hs 一 
n in fa 
> Wnj(ti)uz, ör = g(ti) + ŭi, 其 中 Vi = vi — > Wns (ts)vj, H(t) = g(ti) 一 
j= 
z Wnj (ti) g(t). 
令 


Č- a)? (¥; - Š; B)?2B 
d’(8) = Do ie Taya 2n(8) = XK - X; B) + Ta 


根据 文献 (Cui and Li, 1998; Liang, et al., 1999; He and Liang, 2000), 定义 By 的 广 
义 最 小 二 乘 估计 如 下 : 


ne T ns 
A 一 sn 21 2 (Yi — X; B)? 
Bn = arg min d?((3) = arg min Pae ce 


per n 2a 1B 
由 d?(3)/AB\a-s, = 0 得 
Š% -Š AS (Y; — (Č -Ši Ba)? Ên = 
Di | saat 1+ |lĝnll? Tae oe 


oa. 
ll 
t = 


这 说 明 6, 满足 2 Zni(Bn) = 0, 则 由 估计 方程 Zni(B) = 0 得 到 的 B 的 经 验 似 
i=l 
然 比 置信 区 域 为 


R(B) = sup { II npi 


J PŽni(8)=0,pi > 0, >> pi = 1}. (5.7.2) 
t=1 i=1 


由 于 lim EZni(B) = 0 的 解 并 不 唯一 , Bo 的 普通 的 经 验 似 然 置信 域 {BIR(B) > r} 
不 相合 . 为 此 , 提出 一 个 By 的 水 平 为 a 的 带 约束 的 经 验 似 然 置信 域 


CR, = {BIR(B) > r,d?(B) < A,(S)}, 


5.8 测量 误差 模型 的 模型 检验 方法 .153. 


其 中 , A(S) È È = KK) 的 最 小 特征 根 , 0 <r < 1 依赖 于 a 在 适当 的 条 
EFE 1(Bo) > x2 ( 依 分 布 收敛 ), 而 且 有 UP) => BUPA 一 00), 对 8 = 
Bo- n712 BED, Ye Rr 为 一 个 常 向 量 , Ev, O 为 某 两 个 协 方差 隆 


5.8 测量 误差 模型 的 模型 检验 方法 


5.8.1 ” 偏 度 和 峰 度 正 态 性 检验 


长 期 以 来 , 利用 变量 的 可 观测 数据 对 此 变量 进行 正 态 性 检验 是 统计 判决 中 重要 
而 有 意义 的 课题 , 文献 中 给 出 了 许多 检验 方法 和 检验 统计 量 . 例如 , 众所周知 的 有 
Kolmogorov-Smirnov 检验 、x2 检验 、Shapiro-Wilk 检验 、 Anderson-Darling 检验 
等 . 而 仿 度 和 峰 度 正 态 性 检验 统计 量 以 其 原理 清晰 、 计 算 简 单 经 常 被 首选 用 来 作为 
正 态 性 检验 统计 量 , 这 方面 的 内 容 可 参见 文献 (Mardia, 1970; Malkovich and Afifi, 
1973; Machado, 1983; Baringhaus and Henze, 1991; Romeu and Ozturk, 1993; Zhu, 
et al., 1997). Cui 和 Cheng(1996) 利用 投影 寻 踪 方法 给 出 了 基于 投影 型 偏 度 和 峰 度 
的 多 元 正 态 性 检验 统计 量 及 其 P 值 的 计算 方法 . 但 在 许多 实际 问题 中 , 往往 所 关 
心 变量 X 的 数据 不 能 被 直接 观测 到 , 所 能 观测 到 的 是 X 被 误差 或 污染 的 变量 了 
的 数据 , 变量 X 即 所 谓 带 有 误差 变量 , 它们 服从 带 有 变量 误差 模型 ， 自然 , 如 何 进 
行 变量 X 的 正 态 性 检验 是 人 们 所 关心 和 感 兴趣 的 问题 , 这 时 通常 的 偏 度 和 峰 度 正 
态 性 检验 统计 量 在 此 情形 下 已 不 再 适用 . 

考虑 如 下 带 有 变量 误差 模型 ; 


Y=X+e, (5.8.1) 


其 中 , Y 是 可 观测 变量 , X 是 不 可 观测 变量 , e 是 随机 误差 且 X,s 独立 . 作 如 下 假 
定 : Ee = 0, Eet = wi(2 < i < 8)( 已 知 ), 则 由 式 (5.8.1), 通过 简单 计算 不 难得 到 XX 
的 偏 度 和 峰 度 , 可 表示 为 

p E(X- EX)? _ E(Y - BY)’ -u 


[var(X)]22 [Var(Y) — u]??? 


4 
E(X - EX)" E(Y - EY) -6wE(Y — EY) + 6u3 — u 
k= 
[var(x)| [var(Y) — u2] 


WR X ~ N(p,0?), W b= k =0, 这 一 性 质 可 以 用 来 对 变量 X 进行 正 态 性 检验 . 
考虑 变量 X 的 正 态 性 检验 问题 : Ho : X 服从 正 态 分 布 ; Hi : X 不 服从 正 态 分 
AR. HY, Yo,--- Yn 是 来 自 模型 (5.8.1) 的 一 组 样本 , 则 由 式 (5.8.2), 给 出 变量 X 
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的 偏 度 和 峰 度 正 态 性 检验 统计 量 的 定义 如 下 : 


1. 

= (Y-F) -us 

n i=l 

la 7 3/2? 
[i $ -2 -u 


* $ (Y - F)‘ ~ Gua X (Y: - Y)? + 6u — ua 


as —| e | rf (5.8.3) 


其 中 , Y = (1/n) 5 Yi. 变量 X 的 标准 化 偏 度 和 峰 度 检 验 统计 量 分 别 定义 为 * = 
i=l 
6/61, k* = k/ô2, HP, k 由 式 (5.8.3) RE, 


6+ ta + 9u3 — u? > 6, 


18u2 
6? ô 


9(u4 — uz) , Ue — 6uzu4 
~ t 
o 
2 
Gin, Oe Diu an ee 0 0) 
ug — 12uzu4 + 48u3u4 — u4 — 36v2v4 — Buzys 一 64u2U3 
——— ee Se ge 
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十 
ba S (4-2)? ~un, 
i=l 
Cui 和 Chen(2000) 提出 了 新 的 X 偏 度 和 峰 度 正 态 性 检验 统计 量 ,b,k*,b*, 证 
明了 在 零 假设 成 立时 , 这 些 偏 度 和 峰 度 检验 统计 量具 有 渐 近 正 态 的 优良 性 质 , 模拟 
计算 表明 所 提出 的 检验 统计 量具 有 良好 的 功效 . 


5.8.2 ”广义 线性 测量 误差 模型 


广义 线性 测量 误差 模型 如 下 : 
Y =a+h(z)"Br+e, 
X=a2+u, 


其 中 , E(u) = 0,a,u 是 独立 的 , 已 (elz,uw) = 0, E(e?|a,u) = c2， 在 模型 中 , X,Y 
是 可 观测 的 , x,u 是 m x 1 随机 癌 量 且 m > 1, a, B 分 别 是 1 维和 p 维 未 知 参 
数 , h(-) 是 一 个 已 知 的 p 维 向 量 函 数 (p > m). 它 包括 诸如 线性 测量 误差 模型 (如 
R h(x) = z) 和 多 项 式 测量 误差 模型 (如 果 h(x) = (x, x, ,zk)T) 等 . 在 过 去 
的 20 年 中 , 测量 误差 模型 的 检验 问题 在 文献 中 受到 很 大 的 关注 , 读者 可 以 参见 文 
MÀ (Anderson, 1984; Fuller, 1987; Stefanski and Carroll, 1991; Carroll, et al., 1995; 
Cheng and van Ness, 1999) 及 其 参考 文献 . 


5.8 测量 误差 模型 的 模型 检验 方法 .155 . 


5.8.3 ”广义 线性 测量 误差 模型 的 模型 检验 方法 
考虑 原 假设 
Ho: E|(Y — a- h(x)" 8)jz]=0 as. 对 于 固定 的 a, 8 
和 备 择 假设 : 
Hı: E[(Y ~a—h(x)™B)|2]40 a.s， 对 于 所 有 的 a, B. 


有 趣 的 是 , 即使 = 是 可 观测 的 , 即 普通 的 回归 模型 , 上面 的 检验 问题 也 是 在 20 世纪 
80 年 代 之 后 才 受 到 关注 . 在 文献 中 提出 了 很 多 方法 , 如 文献 (Eubank and Spiegel- 
man, 1990; Hall and Hart, 1990; Eubank and Hart, 1993; Hardle, et al., 1998; Stute, 
et al., 1998; Stute and Zhu, 2002; Zhu, 2003; Zhu and Ng, 2003) 等 . (Hart, 1997) 是 
这 一 领域 很 好 的 参考 书 , 尤其 是 对 于 一 维 协 变量 的 情况 . 

有 关 测 量 误差 模型 研究 的 大 部 分 工作 是 估计 而 不 是 检验 . 对 于 h(z) = z 的 线 
性 测量 误差 模型 ，Fuller (1987, 第 25, 26 页 ) 最 先 提出 一 个 以 残 差 图 形式 的 非 正 式 
检验 .Carroll 和 Spiegelman(1992) 考虑 了 非 线 性 和 蜡 方差 的 图 形 和 数字 形式 的 诊 
Wi. Carroll 等 (1995) 得 到 传统 方法 的 检验 来 检验 线性 模型 中 的 参数 是 否 是 零 . 因 
为 测量 误差 的 存在 , 残 差 与 观测 自 变量 X = z +u 是 高 度 相 关 的 , 并 且 对 给 定 观 
测 X 的 残 差 的 条 件 期 望 不 是 中 心 的 , 即 在 Ho ZF, E[(Y -a — h(X)TB)|X] #0. 
Fuller (1987, 第 23 页 ) 考虑 了 一 个 修正 , 但 是 由 修正 得 到 的 残 差 仍 然 不 是 中 心 的 ， 
所 以 文献 中 很 少 讨论 拟 合 优 度 检验 . 

Zhu 等 (2004) 研究 了 h(x) = s 的 情况 , 并 且 得 出 了 在 上 面 提 到 的 给 定 X 的 
残 差 的 条 件 期 望 关 于 X 是 线性 的 充 要 条 件 . 基于 此 可 以 构造 拟 合 优 度 检验 , 但 是 
变量 的 正 态 性 假设 是 有 限制 的 . Cheng 和 Kukush(2004), Zhu 等 (2004) 独立 地 推 
J T Zhu 和 Cui(2004) 的 方法 到 多 项 式 测 量 误 差 模型 , 并 且 去 掉 了 正 态 性 的 限制 . 
下 面 介 绍 如 何 构造 检验 和 纠偏 . 

假设 x,y 分 别 有 密 度 函 数 f (aw, 01) 和 glu, 02), 其 中 , f(-,01) 和 g(-, 02) 分 别 是 
两 个 给 定 的 函数 , 01,02 分 别 是 g1 维和 gz 维 的 未 知 参数 . 记 001,02), g =Q +a, 
则 X 有 密度 F(-,0) = J Fæst —2,02)dx. 令 


H(X,0) =: Es[h(a)|x] = HOAT Cig ah 
从 而 在 Ho F, 
El(Y —a— H(X,@)'B)|X]=0 as. 
修正 后 的 残 差 ==(Y —a-— H(X,0)"B) 可 以 用 来 构造 一 个 检验 统计 量 . 
注 一些 常 用 模型 的 H 函数 如 下 : 
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(1) 线性 测量 误差 模型 ， 如果 h(x) = z,z ~ N(0,Le), u ~ N(0, Su), W 
H(X,0) = A(0)X, 其 中 , 4(8) = a(z + Lu) 7). 这 一 模型 在 文献 (Carroll, et 
al., 1995) 中 考虑 了 . Zhu 等 (2004) 证 明了 h 和 H 的 这 一 关系 是 x,u 的 正 态 性 的 
充 要 条 件 . 

(2) 多 项 式 测 量 误差 模型 如果 h(x) = (z,z2, ,zh)Tz ~ N(0,02), u ~ 
N(0,02), W H(X,@) = (A(X), (X), HP, f(X) = Leu’, cij 只 与 
0o2, o2 有 关 , 1 < j < k. 具体 细节 参见 文献 (Cheng and ee 1998; Cheng 
and van Ness, 1999). 

a 和 B 的 估计 在 很 多 文献 中 讨论 过 ，Fuller(1987) 对 于 线性 模型 Cheng 和 
Schneeweiss (1998), Cheng 和 van Ness(1999) 对 于 线性 和 多 项 式 模型 ，Carroll 等 
(1995) 对 于 更 一 般 的 非 线性 模型 均 讨论 过 这 样 的 问题 . 为 简便 起 见 , 采用 最 小 二 乘 
估计 量 . 假设 6 是 9 的 基于 样本 {X,---, Xn} 的 Vn 相合 估计 量 . a 和 B 的 最 
小 二 乘 估计 量 定义 如 下 : 

= [Syn(0)] Sgy(0), &=Y — H(6)'8, 
IH, Sun(d) = = ae - A(6)\H(X.,6) — A)", Sny(0) = 


+ 5 Xs ô) — A(é)\(%; — Y), H(O) = ) = 53 H(X;,6), Ý = > ÈY. E-E 
条 件 下 如 果 6 是 ee oy 


ô -p= 1 Ș~(Cov( H(X, 0))) "(ex + (h(z:) — H(Xi, 0))TB][H(X;, 0) — Eh(z)] 


i=l 


— [H(X;, 0) — Eh(x)|(6 — 0)TH'(X;, 0)B) + op(1/Vn) = Op(1/ Vn). 


采用 得 分 型 检验 (Cook and Weisberg, 1982; Behnen and Neuhaus, 1989; Stute 
and Zhu, 2005), 每 个 残 差 给 予 一 个 权重 , 权重 可 以 是 协 变量 的 函数 . 为 了 构造 得 分 
型 检验 , Æ Ho Z F, 对 于 任何 权 函 数 w(-, 0, B), 


E([Y — a — H(X, 0)" Blw(X, 90, B)) = 


给 定 左边 是 有 限 的 . 假设 {(X1, Yi), (Xn Yn) } 是 一 个 容量 为 n 的 样本 , 其 中 ， 
Xi = zi 十 ui. 检验 统计 量 定义 如 下 : 
Tmo = — DY ~ â — H(X,,8)" Iw(X3,0,B) =: — YEw(Xs,0,B), 
j=l 


j=! 


其 中 , 4,6 分 别 是 a,B 的 估计 , & = Y; 4-6 H(X;,6) 是 观测 的 残 差 ， 令 
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Tao = = YAY; ~ H(X3,9)"B}n(X 5,9, B) + op(1/VA) 
j=l 
以 及 /iTno + N(0, A?), 其 中 , A? = E{(o2 + B*Cov(h(w))|XB]n?(X, 8, B)}. 
因为 Tro 不 是 刻度 不 变 的 , 定义 二 次 型 形式 的 标准 化 检验 统计 量 
2 
2 n 
A ) = zr 上 X Yj- & — H(X;,6)"B)w(X;,6,8)| ， 
n n jel 
其 中 ，42 是 一 个 标准 化 的 常数 , 通常 是 VnTno 的 渐 近 方差 A? 的 相合 估计 , 如 
42 = (1/n) X e. T2 就 是 一 个 得 分 检验 , Zhu 和 Cui(2003) 证 明了 在 零 假设 下 
j=1 


T2 S x2, 同时 还 研究 了 检验 统计 量 中 得 分 的 选择 和 功效 的 性 质 , 这 一 方法 可 以 很 
容易 地 推广 到 处 理 一 般 的 参数 模型 . 
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近 半 个 世纪 以 来 , 人 们 对 测量 误差 模型 的 研究 倾注 了 大 量 的 心血 , 取得 了 令 人 
瞩目 的 研究 成 果 , 也 孕育 了 不 少 新 的 统计 思想 . 但 随 着 时 代 的 发 展 , 新 的 数据 类 型 
以 及 误差 类 型 的 不 断 增 加 , 如 数据 类 型 : 纵向 数据 、 面板 数据 、 删 失 (丢失 、 截 尾 等 ) 
数据 、 高 维 数据 、 污染 数据 、 核实 数据 等 ; 误差 类 型 : MPRA. RRR. SAK 
22. Berkson 误差 等 , 对 它们 的 研究 将 会 不 断 深入 , 大 有 愈演愈烈 之 势 , 这 可 以 从 最 
近 的 几 个 统计 顶级 杂志 上 看 到 . 在 测量 误差 模型 的 研究 中 还 有 许多 挑战 性 的 问题 
有 待 我 们 去 解决 , 特别 是 有 许多 统计 方法 需要 我 们 去 探索 和 发 现 , 如 非 线性 复杂 数 
据 测量 误差 模型 中 的 各 种 统计 推断 问题 、 稳 健 统计 方法 等 . 本 文中 只 介绍 了 很 少 一 
部 分 处 理 此 类 问题 已 有 的 典型 思想 方法 以 及 相关 基础 知识 , 有 关 这 一 方面 的 研究 ， 
读者 可 跟踪 或 参考 有 关 文 献 (本 文 已 列 出 一 部 分 )、 书 籍 和 专业 杂志 . 
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第 6 章 ”缺失 数据 回归 分 析 
6.1 引 言 


经 典 的 统计 方法 与 理论 大 都 建立 在 完全 数据 分 析 的 基础 上 , 然而 在 实践 中 , 常 
常 因为 各 种 原因 使 得 一 些 数 据 不 能 获得 , 如 一 些 被 抽样 的 个 体 不 愿 提 供 所 需要 的 信 
息 、 一 些 不 可 控 的 因素 产生 信息 损失 及 十 些 调研 者 本 身 的 原因 不 能 收集 正确 的 信 
息 等 都 可 能 导致 数据 缺失 . 实际 上 , 数据 缺失 普遍 发 生 在 很 多 实际 问题 中 , 如 在 民 
意 调查 、 市 场 调 研 、 邮 寄 问 卷 调查 、 社 会 经 济 研究 、 医 学 研究 、 观 察 研究 及 其 他 科 
学 实验 实验 中 常常 产生 缺失 数据 . 在 这 种 情况 下 , 标准 的 统计 方法 不 能 直接 应 用 到 
这 些 不 完全 数据 的 统计 分 析 , 一 个 简单 直接 的 方法 是 排除 那些 有 缺失 数据 的 个 体 ， 
而 只 对 有 完全 观察 的 个 体 进行 分 析 , 这 是 所 谓 的 完全 情形 (CC) 分 析 . 然而 , 这 一 方 
法 在 大 部 分 情况 下 分 析 结 果 都 有 严重 偏差 , 并 且 由 于 一 些 有 缺失 数据 个 体 被 删除 以 
至 产生 不 必要 的 信息 损失 , 常常 导致 无 效 推断 , 实际 上 , 缺失 数据 统计 分 析 方 法 的 
有 效 性 很 大 程度 上 依赖 于 数据 缺失 是 否 依赖 于 数据 集中 的 变量 及 与 哪些 变量 有 关 ， 
即 是 否 依 赖 于 缺失 数据 机 制 . 

KZ 是 一 个 完全 观察 向 量 , 当 数 据 缺 失 时 , 设 Zor. 是 Z 中 总 能 被 观察 到 的 分 
量 组 成 的 向 量 , 而 记 Znan 是 Z 中 可 能 缺失 的 分 量 组 成 的 向 量 , 5 是 示 性 函数 , 若 
Z 被 完全 观察 , 其 取 值 为 1; 否则 , RAS. 下 面 介 绍 三 种 主要 的 缺失 数据 机 人 制 . 

(1) 完全 随机 缺失 (MCAR) 机 制 . 如 果 数 据 缺 失 不 依赖 于 任何 其 他 变量 ， 即 
P(6 = 1|Z) = P(6 = 1), 则 称 数据 缺失 是 MCAR. 

(2) 随机 缺失 (MAR) 机 制 . 如 果 数 据 缺 失 仅 依赖 于 被 观察 的 变量 Zobs, 但 不 
依赖 于 可 能 缺失 的 变量 Zinin, BA P(6 = 1|Z) = P(S = 1|Zovs), 则 称 数据 缺失 是 
MAR. 

(3) 不 可 忽略 缺失 机 人 制 . 如 果 数 据 缺 失 依赖 2 的 缺失 部 分 , 这 样 的 缺失 机 制 称 
为 不 可 忽略 或 非 随机 人 缺失. 

MCAR 意味 着 观察 数据 是 所 有 数据 的 随机 抽样 , 在 MCAR 假设 下 , 上 面 所 述 
的 CC 方法 可 能 损失 效率 , 但 并 不 引起 偏差 . MAR 是 比 MCAR 更 加 现实 的 假设 ， 
MCAR 是 MAR. 的 特殊 情形 ，CC 分 析 在 MAR 假设 下 通常 既 产 生 无 效 推断 ,又 
可 能 产生 偏差 . 容易 看 到 非 随机 缺失 机 制 是 比 上 面 两 种 缺失 机 制 更 强 的 假设 , 一 
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般 地 , 在 MAR 下 有 效 的 方法 在 非 随机 缺失 下 并 不 有 效 . 关于 缺失 机 制 ,Little 和 
Rubin(2002) 给 出 了 很 好 的 例子 予以 解释 并 予以 讨论 . 

至 今 , 大 部 分 研究 都 是 集中 在 MAR 假设 下 进行 的 , 原因 是 这 一 假设 既 能 在 很 
多 实际 问题 中 得 到 合理 解释 , 又 能 为 统计 分 析 的 方法 与 理论 研究 提供 方便 . 尽管 非 
随机 缺失 机 制 假设 比 MAR 更 一 般 , 但 在 这 一 假设 下 的 统计 分 析 方 法 与 理论 研究 相 
当 困 难 , 目前 这 方面 研究 成 果 很 少 . 

由 于 篇 幅 所 限 , 本 章 不 可 能 对 缺失 数据 分 析 介 绍 面面俱到 , 仅 就 统计 研究 中 最 
重要 的 研究 领域 之 一 一 一 回归 分 析 来 介绍 缺失 数据 统计 分 析 的 方法 与 相关 理论 . 


6.2 ”缺失 数据 分 析 常 用 的 方法 


设 X 是 p 维 协 变量 向 量 , Y 是 反映 变量 , KERE Y R X 的 某 分 量 缺 失 , 如 引 
言 中 所 阐述 的 原因 , 简单 的 CC 分 析 方 法 通常 不 被 推荐 应 用 到 这 种 缺失 数据 分 析 ， 
因此 , 人 们 致力 于 寻求 缺失 数据 统计 分 析 方 法 使 不 完全 情形 的 信息 得 到 使 用 , 从 而 
获得 更 加 有 效 的 推断 . 这 里 主要 介绍 似 然 方法 、 插 补 方法 、 逆 概率 加 权 方 法 , 其 他 的 
方法 , 如 平均 记分 法 (Reilly and Pepe, 1995) 及 全 Bayesian 模型 方法 (Rubin, 1987, 
第 3 章 ; Ibrahim, et al., 2005) 等 就 不 在 这 里 一 一 介绍 . 


6.2.1 WAHE 


假设 给 定 协 变量 X F, Y 的 条 件 概率 密度 或 (X,Y) 的 联合 概率 密度 有 参数 
形式 , 在 Y 缺失 的 情况 下 , 无 需 对 缺失 机 制作 任何 假设 , 即 可 用 CC 分 析 作 似 然 推 
断 , 并 定义 相合 的 极 大 似 然 估计 . 其 渐 近 方差 估计 可 用 对 数 似 然 二 阶 微分 获得 . 更 
进一步 , Qin (2000) 通过 联合 经 验 似 然 与 参数 似 然 , 基于 所 有 观察 数据 发 展 了 半 参 
数 似 然 方法 , 这 一 方法 利用 辅助 信息 改进 推断 . 也 应 该 指出 这 种 方法 对 模型 假设 是 
敏感 的 , 即 若 模型 假设 错误 , 将 定义 有 严重 偏差 的 估计 . 而 当 协 变量 缺失 时 , 一 些 获 
得 极 大 似 然 估 计 的 常用 方法 和 技术 是 似 然 因子 分 解 方法 (Little and Rubin, 2002; 
Schafer, 1997; Ibrahim, et al., 2005), Newton-Rapson 或 拟 Newdon-Rapson 算法 及 
Dempster 等 (1977) 所 建议 的 EM 算法 等 . 关于 协 变量 缺失 时 似 然 分 析 方 面 的 文章 
有 (Little, 1992; Little and Schluchter, 1985; Vach, 1994; Lipsitz and Ibrahim, 1996; 
Lipsitz, et al., 1999; Ibrahim, et al., 2005) 及 其 参考 文献 . 伪 似 然 、 拟 似 然 及 半 经 验 
伪 似 然 方法 在 文献 (Pepe and Fleming, 1991; Reilly and Pepe, 1995; Lawless et al.， 
1999; Chatterjee, et al., 2003; Wang, 2009) 中 有 研究 . 


6.2.2 ” 插 补 方法 
插 补 方法 就 是 使 用 某 种 规则 或 方法 对 缺失 项 填充 数值 , 使 有 缺失 的 数据 集 变 成 
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完整 的 数据 集 . 插 补 有 单一 插 补 与 多 重 插 补 . 插 补 是 一 个 常用 、 简单 、 方 便 的 方法 . 
一 般 地 , 插 补 有 均值 插 补 、 回归 插 补 、 随 机 回归 插 补 、 热 平台 插 补 、 冷 平台 插 补 、 替 
代 插 补 等 方法 . 关于 这 些 插 补 方法 的 详细 介绍 可 参见 文献 (Little and Rubin, 2002), 
这 里 仅 简 介 如 下 : 

(1) 均值 插 补 就 是 以 响应 单元 均值 填补 缺失 值 ; 

(2) 回归 插 补 就 是 用 单元 缺失 项 对 观测 项 的 回归 值 (预报 ) 填补 相应 的 缺失 值 ; 

(3) 随机 回归 插 补 就 是 用 回归 插 补 值 再 加 上 一 个 随机 项 填补 相应 的 缺失 值 ; 

(4) 热 平 台 插 补 是 由 “类 似 ” 响 应 单元 中 抽取 的 值 填补 相应 缺失 值 ; 

(5) 冷 平 台 插 补 是 用 其 他 来 源 中 所 获得 的 数据 代替 某 一 项 目 中 的 缺失 数据 ; 

(6) 替代 插 补 就 是 用 总 体 中 未 选 到 的 备 择 单 元 代替 不 响应 单元 , 如 一 个 户主 无 
法 取得 联系 , 那么 用 同一 住宅 区 内 一 个 先前 没有 选中 的 户主 代替 . 

均值 插 补 是 回归 插 补 (或 条 件 均 值 插 补 ) 的 特殊 情形 , 回归 插 补 在 文献 中 广泛 
使 用 , 它 分 为 线性 回归 插 补 (Yates, 1933; Healy and Westmacott, 1956; Little, 1992; 
Wang and Rao, 2002a)、 非 参数 核 回 归 插 补 (Cheng, 1994; Wang and Rao, 2002b)、 
非 参 数 近 邻 回 归 插 补 (Chen and Shao, 2000)、 半 参数 部 分 线性 回归 插 补 (Wang, et 
al., 2004) 及 比率 插 补 (Rao and Shao, 1992). 关于 热 平 台 插 补 、 冷 平台 插 补 及 替代 
插 补 , 除 在 实践 中 较 普遍 地 使 用 , 其 理论 性 质 方面 的 文献 并 不 多 , 关于 热 平 台 插 补 
方法 的 更 现代 讨论 可 参见 文献 (Marker, et al., 2002). 

一 般 地 , 当 使 用 均值 插 补 与 回归 插 补 等 插 补 方法 时 ， 人 们 常常 使 用 单一 插 补 . 
然而 , 当 播 补 值 是 从 缺失 数据 相关 的 分 布 总 体 (如 预测 分 布 的 估计 总 体 ) 中 抽样 时 ， 
为 消除 抽样 随机 性 影响 , 人们 一 般 使 用 多 重 捅 补 . 多 重 插 补 首先 是 由 Rubin (1978) 
建议 的 , 这 种 方法 是 对 缺失 样本 中 每 一 个 缺失 值 产 生 多 个 , 如 m 个 插 补 值 后 , 获得 
m 组 完全 数据 集 , m 个 完全 数据 的 推断 组 合 在 一 起 , 通过 平均 可 获得 合适 的 推断 ， 
这 一 方法 能 反映 出 由 缺失 引起 的 不 确定 性 . 多 重 插 补 既 拥有 单一 插 补 的 优点 , 又 纠 
正 了 缺点 . 文献 在 不 同 的 模型 下 提出 了 不 同 的 多 重 插 补 方法 , 这 些 方法 有 参数 插 补 
(Ruud, 1991; Wang, et al., 1998; Wang and Dai, 2008), 非 参数 与 半 参 数 插 补 (Reilly, 
1993; Wang, Linton and Hirdle, 2004) 及 随机 化 插 补 (Rubin, 1987, 第 4 章 ; Fay, 
1996). 关于 多 重 桂 补 与 似 然 方 法 之 间 的 联系 , Ibrahim 等 (2005) 作 了 深入 的 讨论 . 


6.2.3 SEMINA 


CO 方法 通常 定义 不 相合 的 估计 或 给 出 有 严重 偏差 的 统计 分 析 结 果 , 然而 对 CC 
情形 下 估计 方程 的 贡献 项 进行 加 权 , 并 当权 取 为 选择 概率 (selection probability) 的 
WY, 定义 的 估计 在 通常 情况 (如 MAR 假设) 是 相合 估计 . 这 一 加 权 的 思想 来 自 
Horvitz 和 Thompson (1952), 因而 这 一 方法 通常 称 为 Horvitz-Thompson (HT) 逆 
概率 加 权 法 . HT 逆 概 率 加 权 法 有 一 个 奇怪 、 违 反 直 观 的 重要 性 质 , 那 就 是 在 参数 
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估计 问题 中 , 当 使 用 适当 被 估计 的 权 函 数 时 , 定义 的 HT 逆 概 率 加 权 估计 比 权 已 知 
时 定义 的 估计 更 有 效 . 这 个 性 质 表 明 即 使 选择 概率 已 知 , 也 不 要 使 用 已 知 的 权 函 数 ， 
而 应 该 使 用 权 函 数 估 计 定 义 加 权 估 计 , 这 的 确 让 人 感到 奇异 . 关于 这 一 现象 的 一 个 
启发 性 的 讨论 可 参见 文献 (Robins, et al., 1994). 人 们 可 能 期 望 这 一 现象 也 发 生 在 
非 参数 回归 估计 中 , 然而 事实 并 非 如 此 , 正如 Wang 等 (1998) 所 证 明 的 , 无 论 使 用 
被 估计 的 权 还 是 已 知 的 权 , 对 逆 概 率 加 权 估 计 的 渐 近 方差 都 没有 影响 , 也 就 是 两 种 
情况 下 的 估计 渐 近 效率 是 相同 的 . 

然而 , HT 逆 概 率 加 权 方 法 只 有 当权 函数 假设 正确 或 估计 渐 近 正确 时 才能 定义 
相合 估计 , 这 意味 着 这 一 方法 存在 两 个 方面 的 问题 : 如 果 对 选择 概率 假设 参数 模型 ， 
并 用 参数 方法 估计 权 函 数 , 则 这 一 方法 对 权 函 数 假设 是 敏感 的 ; 如 果 用 非 参数 方法 
估计 选择 概率 函数 , 则 可 能 发 生 “ 维 数 祸根 ”问题 . 后 来 Robins 等 (1994) 以 及 其 他 
学 者 发 展 的 扩张 逆 概率 加 权 具 有 “ 双 稳健 ”性 , 关于 “ 双 稳 健 ” 性 的 解释 可 参见 文 
献 (Scharfstein, et al., 1999; Wang, et al., 2004) 等 . 

前 面谈 到 插 补 方法 与 似 然 方 法 的 联系 , 而 关于 逆 概 率 加 权 与 似 然 方法 之 间 的 联 
A, Lipsitz (1999) 给 出 了 讨论 . 


6.3 ”线性 回归 模型 统计 分 析 


众所周知 , 当 数 据 完全 观察 时 , 线性 模型 回归 系数 可 用 最 小 二 乘法 估计 , 然而 
当 一 些 数据 缺失 时 , 最 小 二 乘法 不 能 直接 应 用 , 在 这 种 情况 下 , 如 何 估计 未 知 回归 
参数 是 本 节 所 要 介绍 的 内 容 . 关于 协 变 量 缺失 线性 模型 的 研究 , Little (1992) 给 出 了 
系统 的 回顾 , 而 关于 反映 变量 缺失 线性 回归 分 析 的 经 典 内 容 可 参见 文献 (Little and 
Rubin, 2002). 下 面 两 个 分 节 分 别 介绍 协 变量 缺失 时 最 小 二 乘 播 补 方法 与 似 然 因子 
分 解 方法 , 最 后 一 个 分 节 介绍 反映 变量 缺失 时 经 验 似 然 方法 . 


6.3.1 ft) RTH 
考虑 下 面 的 线性 回归 模型 : 


Y = bo + Xi1fi +---+ Xpbp +e, (6.3.1) 


其 中 , Y 是 反映 向 量 , (Xi,… , Xp) 是 协 变量 向 量 , « 是 随机 误差 .假设 Var(Y| 
Xi1,… , Xp) = 07, 并 记 B = (Ai, bT. 当 协 变量 缺失 时 , 一 个 简单 的 方法 是 
用 无 条 件 样本 均值 插 补 缺失 的 协 变量 X's, 然而 该 方法 定义 不 相合 估计 且 基 于 这 
一 方法 的 推断 因 偏差 和 精度 问题 而 被 焉 曲 , 因此 , 这 一 方法 通常 不 被 推荐 . 然而 一 
个 显然 改进 的 方法 是 用 缺失 变量 关于 观察 协 变 量 的 回归 的 估计 值 进行 插 补 , 而 该 
回归 估计 可 使 用 CC 方法 获得 , 使 用 这 一 方法 较 早 的 论文 可 参见 文献 (Dagenais, 
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1973). 现 假设 观察 到 Xali = 1,2,---,m) 且 Xali =m+1,m+2, ,n) RK. BH 


p 
然 E[Yi|Xii,… ,Xip] = Bo + X BiXi) 则 


j=1 


p 
E[Y:|Xi2, ;Xi = Bo + AXA + > BiXi, 
j=2 

其 中 , Xn = [Xi|Xi2z,… ,Xip]. 因此 , WIRE XA 代替 缺失 的 Xi, 则 所 得 到 的 
最 小 二 乘 估计 在 MCAR 缺失 机 制 下 是 相合 估计 . 

很 显然 , 插 补 值 XS, 依赖 未 知 回归 参数 , 实践 中 , 该 回归 参数 需要 估计 ， 一 种 方 
法 是 使 用 CC 方法 估计 这 些 参数 , 尽管 这 些 回 归 参 数 估计 的 误差 使 最 终 估 计 方 差 增 
大 , 但 并 不 影响 估计 的 相合 性 . 
6.3.2 ” 似 然 因子 分 解 分 析 


对 模型 (6.3.1), 当 协 变量 缺失 时 ，Anderson 引进 似 然 因 子 分 解 的 重要 思想 方 
法 获得 极 大 似 然 解 . Gourieroux 和 Monfort (1981) 在 X 缺失 的 回归 问题 中 应 用 
Anderson 的 方法 . 现 假设 Xi 可 能 缺失 , 缺失 机 制 是 MCAR, 在 给 定 其 他 协 变量 下 
Xi 5 Y 的 条 件 分 布 可 分 解 为 


P(X1,Y|X2; ,Xp;ig) = 已 XiX2 , Xp, Vi Yi)P(Y|Xa,-- , Xpi W2). 
Yi 与 wo 相应 的 似 然 可 分 解 为 
L(y, %2) = Lily) La(y2), (6.3.2) 


其 中 , Li 是 给 定 X2,… ,Xb RY F, X 的 正 态 密度 关于 m 个 (Y, Xi, ,Xp) 的 
完全 观察 的 乘积 , Lo 是 给 定 X2, ,XX, F, Y 的 正 态 密度 关于 所 有 nn 个 (Y, X2,…， 
Xp) 观察 的 乘积 . 如 与 wo 是 不 同 的 参数 , 它们 的 极 大 似 然 估 计 可 分 别 极 大 化 L 
与 Lo 而 获得 . 而 有 趣 的 回归 参数 极 大 似 然 估计 可 通过 表示 这 些 回归 参数 为 1 与 
ua 的 函数 , 然后 用 Wi 与 wo 的 估计 代替 函数 中 办 与 加 而 获得 . 
6.3.3 ”经 验 似 然 分 析 
考虑 线性 回归 模型 
Y; = X7B+u(Xi)e, i=1,2, mi (6.3.3) 


其 中 , 8 是 p x 1 回归 参数 向 量 , m(.) 是 严格 正 的 已 知 函 数 , (s 是 均值 为 0, 方差 为 
o? 且 独 立 于 X's 的 随机 误差 . 本 节 集 中 在 反映 变量 缺失 而 协 变量 完全 观察 这 一 情 
TE. 当 反 映 变量 缺失 时 , 从 模型 (6.3.3) 获得 下 面 的 不 完全 观察 : 


(Xi, Yi, ôi), i= 1,2,- ,nN, 
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其 中 , 所 有 X 被 完全 观察 , 6, = 0 表示 Y, 缺失 , 6; = 1 表示 Y 被 观察 . A 
zm(.) = 1, Yates (1933) 建议 用 Yi = X:ĝ, 揪 补 缺失 的 Y; 后 , 再 用 最 小 二 乘 估计 
回归 系数 , 其 中 , 8, 是 CC 最 小 二 乘 估计 , 关于 这 一 方法 的 详细 介绍 可 参见 文献 
(Little and Rubin, 2002). 下 面 介绍 一 种 现代 统计 分 析 方 法 一 一 经 验 似 然 方法 . 经 
验 似 然 方法 是 Owen (1988) 在 完全 样本 下 提出 的 一 种 非 参数 统计 推断 方法 , Wang 
和 Rao (2002a) 将 这 一 方法 应 用 到 反映 变量 缺失 时 反映 均值 的 推断 . 

首先 使 用 预报 值 对 缺失 反映 进行 插 补 . 为 此 , 首先 用 完全 观察 数据 对 (Xi Yi), 
Bl CC 方法 定义 加 权 最 小 二 乘 估计 , 即 定义 


一 1 
~ 的 OXiY: 
oe È RO: ) 2 WX 


i=1 


注意 到 E(XTB,) = EY;， 因 此 , 能 使 用 预报 XT5。 插 补缺 失 的 Yi, 并 记 Zin = 
iYi + (1 — 6) X78, (i = 1,2,---,n). 对 反映 变量 Y 均值 推断 感 兴 趣 , 若 90 是 其 
真 值 , WA EZin = EY; = 0. W Fp 是 在 Zn 点 有 概率 质量 为 p; 的 分 布 函数 . 


i=1,2 ,mm 则 有 OUR) = Sop. Zin 于 是 可 以 定义 在 9 = bo 点 赋值 的 经 验 对 数 
似 然 比 


n 
in(00)=-2 max J log(np;). 
9(Fp)=80, > pi=1 i=1 


使 用 Lagrange 乘 子 法 可 得 


in(00) =2 > bog ft + An(Zin = 00)}, 


t=1 


其 中 , An = An (00) 是 下 面 方程 的 解 : 


Z Zin ea bo =6 
1+ An(Zin =) o) Eas 


t=1 


注意 到 n-! y (zw 一 bo)2 并 不 依 概率 收敛 到 n~ 1/2 yz。 一 00) 的 渐 近 方差 . 因此 ， 


i=1 s=1 


bn (Oo) 并 不 渐 近 到 标准 卡 方 分 布 . 下 面 调 整 该 对 数 似 然 函 数 使 调整 后 的 对 数 似 然 是 
标准 的 卡 方 分 布 . 为 此 , 设 Vn(0) =n! S (Zin — 0)?, 并 定义 


i=1 


~ a ~T m ~ 
Va(8) = Sin + S3nS3n Sen D2, + Bn S4nBn — 293, 8n9 + 0? + 295,55) Sen Zen; 


.170. 第 6 章 缺失 数据 回归 分 析 


n n m 
其 中 , Sm=n-1》 Yi- X7B,)?, San =n? SO (5)XiSan=n SG XLXT/ 


i=1 i=l i=1 


n n n 
ve(Xi), San = nO XXT, Ssn = nt) Xi, Sen = nS X: 及 pa = 
t=] 


i=1 i=1 


n7! SAMY 一 XIB,). 进一步 , 设 rn(9) = Vn (0)/Vn (8) 且 
i=1 


laa (9) = rn (0)in, (9) 。 


关于 jua(9), 有 下 面 的 定理 : 
定理 6.3.1 假设 El|X||? < oo 且 Ee? < oœ. 若 0o XO 的 真 值 , 则 iaa(90) 渐 
近 x? 分 布 , Bp 


P(iga(80) < ca) = 1 — @ + o(1), 


其 中 , ca 满足 P(X < ca) =1-a. 
由 定理 6.3.1, 渐 近 1 - a 置信 水 平 的 置信 区 间 可 定义 为 1。 = {9liaa < ca}. 
此 外 , Wang 和 Rao (2002a) 在 辅助 信息 可 获得 的 情况 下 定义 了 9 的 改进 估计 ， 
并 发 展 了 调整 经 验 似 然 推 断 方 法 . 


6.3.4 ”有 替代 变量 时 缺失 数据 统计 分 析 


在 很 多 实际 问题 中 , 一 些 变量 测量 是 昂贵 、 耗 时 和 困难 的 , 于 是 仅 对 所 研究 个 
体 中 部 分 个 体 测量 其 观察 值 , 而 将 其 他 个 体 的 观察 看 成 缺失 . 但 为 了 研究 需要 ,人 
们 常常 用 简单 且 花 费 少 的 方法 对 每 个 个 体 测量 其 替代 值 , 其 中 , 部 分 个 体 观 察 值 与 
其 替代 值 就 构成 核实 数据 , 这 方面 例子 可 参见 文献 (Pepe, 1992) 关于 吸烟 调查 的 例 
子 , 一 些 其 他 例子 可 参见 文献 (Pepe and Fleming, 1991; Wittes, et al., 1989). 很 显 
然 , 使 用 核实 数据 可 捕捉 个 体 观察 值 与 替代 观察 值 的 关系 , 这 意味 着 人 们 可 利用 核 
实数 据 帮助 基于 替代 变量 发 展 缺 失 数 据 统 计 分 析 方 法 . 实际 上 , 这 方面 有 很 多 研究 
工作 , 参见 文献 (Stefanski and Carroll, 1985; Carroll and Wand, 1991; Wang, 1999; 
Wang and Rao, 2002c) 以 及 其 中 的 文献 . 


6.4 非 参 数 与 参数 回归 模型 
6.4.1 ” 非 参 数 拟 似 然 估 计 


Wang 等 (1998) 基于 道 概率 加 权 方 法 定义 了 非 参数 回归 函数 的 逆 概 率 加 权 拟 
似 然 方 程 估计 , 并 建立 了 估计 的 分 布 理论 . 下 面 介绍 他 们 的 结果 . 
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设 (Yi, Xi), , (Yn, Xn) 是 独立 随机 变量 序列 , 其 中 , Y; 是 一 元 反映 变量 , X; 
是 一 元 协 变量 , 在 经 典 的 广义 线性 模型 中 , 给 定 X 下 Y 的 条 件 密度 属于 典 则 指数 
族 fyix(ylz) = C(y)exp[yb(z) - B{e(z)]], 其 中 , 与 C 是 已 知 函 数 , 9 称 为 典 则 或 
自然 参数 . 未 知 函数 nz) = EIYIX = z] 通过 连接 函数 9 满足 g(u(x)) = n(x). 在 
参数 广义 线性 模型 中 , mtz) = co + ciz, 其 中 , co 与 cl 是 未 知 参数 . de 
是 已 知 . 例如 , 在 logistic 回归 中 , glu) = log{u/(1—u)}, 对 线性 回归 g(w) = u, 而 
对 非 参 数 情形 , 对 gO) 没有 模型 假设 . 

对 某 已 知 函 数 VO, 车 条 件 方差 假设 服从 模型 Var(Y|X = z) = V{p(z)}, 则 
相应 的 拟 似 然 函数 Q(w, y) 满足 (8/6w)Q(w,y) = (y 一 w)/V(w)， 下 面 主要 考虑 
HEERKE, u(x), 或 等 价 地 , nl) 的 估计 问题 . 对 于 协 变 量 缺 失 情 形 ， 引进 示 性 
变量 5, HX, 被 观察 , WMS 6 = 1; FM, > 6i = 0. 更 进一步 , 假设 缺失 机 制 
是 MAR, Bl m; = P(6; = 11¥i, Xi) = P(6 = 1|¥i) = 7(¥%i). Wang 等 (1998) 使 用 
Horvitz-Thompson 逆 概 率 加 权 方 法 极 大 化 下 面 的 加 权 拟 似 然 函数 : 


ST Ql {o + A(X ~ 2)), Y: AE- 2), (6.4.1) 
t=1 

定义 8 的 估计 = (Âo, Ar), 其 中 , Kh = K(-/h). 于 是 使 用 Ale, n) = g7 Hle, 7)} = 
g (Bo) 估计 u(x) = g-1{n(z)}, 然而 在 实践 中 , 只 有 在 两 阶段 设计 中 , « 才 有 可 能 
是 已 知 的 , 而 在 一 般 缺失 数据 问题 中 , r 通常 是 未 知 的 .在 这 种 情况 下 ， 上面 定义 
的 估计 依赖 于 未 知 的 x, 于 是 Wang 等 (1998) 利用 局 部 线性 光滑 技术 估计 选择 概 
率 rx， 对 固定 点 y, 可 以 使 用 îy) = gt (Go) 估计 aly), 其 中 , & = (ao,ana) 是 


X lg" {ao + (Yi — y), 6: }|Kx(%i — y) 的 极 大 值 解 ,和 是 光滑 参数 . 设 Br) 是 使 
i=1 . 
得 下 面 逆 概率 似 然 方程 : 


2 Qlg {Bo + A(X: — 2)}, Yi -a (6.4.2) 
i=1 
达到 极 大 值 的 解 , 于 是 定义 ua) 的 估计 为 Ali) = 9 A(z, *)}, 其 中 , A(z, 7) = 
Po(1). 

Wang 等 (1998) 分 别 证 明了 r 已 知 与 未 知 两 种 情况 下 , u(x) 的 估计 Ale, n) 与 
f(a, â) 的 渐 近 正 态 性 , 结果 表明 两 个 估计 有 相同 渐 近 方差 , 但 有 不 同 的 渐 近 偏差 项 . 
这 一 结果 与 参数 和 半 参 数 模型 下 情况 不 同 , 在 参数 问题 中 , HT 逆 概 率 加 权 有 一 个 
奇怪 且 重 要 的 性 质 , 那 就 是 使 用 选择 概率 估计 的 逆 1/f 作为 权 定义 的 估计 , 与 选择 
概率 7 已 知 , 并 使 用 已 知 的 选择 概率 的 逆 1/r 为 权 定 义 的 估计 相 比 有 更 小 的 渐 近 
方差 . 关于 这 一 现象 启发 式 讨论 可 在 文献 (Robins, et al, 1994, 6.1 节 ) 中 找到 . 而 
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对 这 里 的 非 参数 情形 , 无 论 选择 概率 估计 与 否 , 所 得 逆 概 率 加 权 估 计 渐 近 方 差 都 是 
相同 的 . 


6.4.2 ”反映 均值 非 参 数 估计 
假设 反映 变量 缺失 , 获得 下 面 的 不 完全 数据 : 


(Xi, Yi,6:), t= 1,2,---,n, 


其 中 , 所 有 X 被 完全 观察 , 6; = 0 表示 Yi 缺失 , 6; = 1 表示 Yi 被 观察 . 缺失 机 制 
是 MAR, 即 P(5 = 1|Y, X) = P(6 = 1|X), 下 面 记 r(z) = P(6 = 1|X = z), 本 节 对 
Y 的 均值 9 = EY 的 估计 感 兴趣 . 

设 m(x) = ElY |X = xi, 注意 到 0 = Em(X), 这 启发 我 们 用 Nadaraya- Watson 
核 方法 估计 0. 设 K 是 对 称 的 概率 密度 核 函数 , b = b(n) 是 趋 于 零 的 窗 宽 序列 , 一 
个 自然 的 方法 是 使 用 插 补 方法 定义 9 的 估计 


Î = n? Sai + (1 — 6i)m(Xi)}, (6.4.3) 


i=1 


即使 用 M(X) 插 补 每 一 个 缺失 的 Y, (Cheng, 1994), 其 中 ， 
m(z) = Yo K(X) / Yo K(X 2h 
而 Cheng (1994) 提出 的 另 一 个 估计 是 回归 估计 的 样本 平均 , 即 
0=n-! Sy 
i=1 


很 显然 , 当 ma) 是 一 个 参数 模型 m(z) = m(z,9$), 只 要 使 用 % 的 一 个 合适 的 估 
计 4, m(x) 用 m(z, $) ARS, 6 6(x) 渐 近 更 加 有 效 , 这 一 结论 实际 上 可 从 文献 
(Matloff, 1981) F]. Matlof (1981) 证 明 使 用 的 加 权 最 小 二 乘 估计 , 在 Y 完全 


观察 的 情况 下 , 0, 甚至 有 比 n YOY, 更 小 的 渐 近 方差. 然而 当 m(z) 是 完全 未 知 


i=1 


时 , 用 非 参数 方法 估计 ma) 结果 完全 不 同 , Cheng(1994) 证 明 当 次 (z) 取 上 面 所 述 
的 Nadaraya- Watson 非 参 数 估计 时 , 6 与 0 都 是 渐 近 正 态 , 并 有 相同 的 渐 近 方差 为 
BY, = E(B?(X)/x(X)) + Var(m(X)), HP, X?(X) = Var(Y |X). 

然而 当 有 辅助 信息 , 如 当 有 EAX) = 0 这 种 辅助 信息 时 , Wang 和 Rao (2002b) 
利用 这 一 辅助 信息 定义 了 9 的 渐 近 更 加 有 效 的 估计 , 其 中 , AC) = (41(-),… , Ar(-)) 
(r>1) 是 一 已 知 的 向 量 函 数 . 现 介绍 这 一 估计 如 下 : 
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为 了 使 用 辅助 信息 , 首先 在 约束 条 件 Y pn = 1 与 Yna) =0 下 极 大 化 


i=l 


mn 
IES 
i=1 


如 果 原 点 在 A(X), ,A(Xn) 的 凸 包 , 则 由 Lagrange 乘 子 法 可 得 


1 1 


其 中 , Cn 是 下 面 方程 的 解 : 


1 n 
Te A 1 a oan a 
则 2 的 经 验 似 然 估 计 可 定义 为 


和 加 1 2 iY; + (1 = 6: )m(X;) 
On, AU = n 2, 1 + CTA(X;) è 


Wang 和 Rao (2002b) 在 一 定 条 件 下 证 明了 nau 渐 近 正 态 , 其 渐 近 方差 是 S-o, 
其 中 , D = E[(m(X) 一 0)A(X) T(EA(X)AT(X))-1E[(m(X) - 0) A(X)], Fb 
所 定义 的 O 的 渐 近 方差 . 由 此 可 看 到 利用 经 验 似 然 利 用 辅助 信息 增加 估计 的 渐 近 
6.4.3 ”反映 均值 双 稳 健 插 补 估计 


6.4.2 小 节 定 义 了 反映 均值 的 非 参 数 估计 , 一 个 显然 的 问题 是 如 果 X 的 维 数 太 
高 , 将 有 “ 维 数 祸根 ”问题 , 若 对 mO) 假设 参数 回归 模型 , 则 不 仅 避 免 “ 维 数 祸根 ” 
问题 , 而 且 能 提高 估计 的 效率 , 然而 不 幸 的 是 这 样 的 参数 估计 方法 严重 依赖 模型 假 
Be, 若 模型 假设 有 偏差 将 定义 不 相合 估计 . 为 此 , 最 近 Qin 等 (2008) 定义 了 均值 的 
双 稳 健 估计 , 下 面 介绍 这 一 估计 . 

既然 前 面 的 非 参 数 估计 mX) 插 补 缺失 的 Y, 有 “ 维 数 祸根 ”问题 人们 可 能 
想到 用 EY = 0] 的 估计 Asoo 播 补缺 失 的 Yi. 这 一 方法 尽管 无 需 对 m(:) 作 模 型 
假设 , 也 没有 “ 维 数 祸根 ”, 但 另 一 缺点 是 不 同 的 缺失 反映 插 补 同一 值 , 这 显然 影响 
估计 的 效率 , 下 面 的 方法 对 此 作出 改进 . 注意 到 


E[Y|6 = 0} = — 


| j P(5 = 0|X)dF (y, xX) 
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其 中 , F(Y, X) 是 (Y, X) 的 联合 分 布 , 9 = P(5 = 1). 由 上 述 表达 式 知 E[Y|5 = 0) 可 
由 下 式 估计 : 
J yP(5 =0|X)dFly,X) n 
fis=o = (i = ôiĝi Yi, 


i=1 
其 中 , P(5 =0|X), F,6 与 â 是 相应 的 估计 , 将 在 后 面 给 出 . 
为 了 定义 双 稳健 插 补 估计 , 使 用 


Y; = (Xi, Ê) + >> 566 — p(Xi,A] 
i=1 
播 补缺 失 的 Yi, 则 u 的 估计 可 定义 为 


Penp= 工 BT+( 一 ORG 人 


i=1 


n 


D ĝi n 
+|1- = > 5igi[¥i — p(Xi, ĝ)] (6.4.4) 


n 


= DY + ~ fmol + 1 D1 — 6:)u( Xe 8) 
i=l 


i=1 


ae n 
i=1 a A 
ata 2 Gp (XA), (6.4.5) 


这 一 估计 是 双 稳 健 的 .为 了 看 到 这 一 点 , 分 析 如 下 : WR mX) = uX, 8) 假设 
正确 , W Yi — (Xi, Â) 是 残 差 , A (6.4.4) 右边 第 二 项 依 概率 趋 于 零 , 因此 , 不 管 
P(6 = 0IX) 是 否 正 确 , ter 均 依 概 率 收敛 到 y. 如 果 PO = 0|X) 模型 假设 正确 , 使 
得 P(5 = 0X), F K ô BMA, 则 由 式 (6.4.5) 可 以 看 到 无 论 W(X,B) 是 否 正 
确 , fer WE u 的 相合 估计 , 这 是 因为 只 要 有 收敛 到 Go, 式 (6.4.5) 最 后 两 项 的 和 
WRB EE[(1 一 6)u(X, bo) — (1 — 0)E[u(X, 8) = 0} = 0. 下 面 给 出 上 面 估 计 中 所 
用 到 的 P(5 = 0|X), Ê, ô 与 ĝi. 

假设 工作 选择 概率 模型 wX, a) 及 工作 回归 模型 y(X,B), 其 中 , w(-,-) 与 u) 
是 已 知 函 数 , a 与 8 是 未 知 参数 向 量 . 考虑 一 个 基于 观察 数据 


Ôl, ,On 与 (Yi, Xi ôi = 1), i = 1,2,.… ,nN 
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的 似 然 函数 . 很 显然 , 当 5; = 1 时 , 似 然 是 w(Xi, a)pi, 其 中 , pi = dF (Yi, Xi). 而 当 
; 二 0 时 , 似 然 是 P(6; = 0) = 1 - 0. 于 是 观察 数据 的 似 然 函 数 为 


L = [[[w( Xs, ap" a — 0 ®, 
i=l 
KF Plt Pn: 在 下 面 的 约束 下 : 
》 bipi =], p20, 
i=1 


a bipi[w(Xi, a) 7S 6) = 0, 
i=l 
n 


X ipin: (a, B) =ñ(&, 8), (6.4.6) 


i=l 


极 大 化 上 述 似 然 工 可 求 得 p. 然而 上 面 似 然 包 含 未 知 讨厌 参数 a 与 p 需要 估计 ， 
实际 上 , a 的 估计 能 通过 极 大 化 下 面 的 对 数 似 然 : 


X [ó logw(Xi, a) + (1 — 6;) log{1 — w(Xi, a) 


t=1 


而 获得 . 注意 到 在 MAR 假设 下 有 EY|X,6 = 1) = EfY|X]. 因此 , 6 能 使 用 CC 参 
数 回归 方法 获得 估计 , 定义 这 一 估计 为 B, ER (6.4.6) 所 定义 的 似 然 中 用 â, 8 取 
代 a 5 p, 然后 使 用 Lagrange 乘 子 法 可 得 


ôi 


i 
és 5 [1 + Ai (wi 一 8) + A27] 
i=1 


其 中 , ô; = w(Xi â), fi = ni(&, B) — n~! led), Ai 与 Ao Æ Lagrange T. 
于 是 获得 0 的 截面 对 数 似 然 为 
(0) = 一 S log[1 + A1 (ù; — 0) + A27:] + 0 一 Sa) log(1 — 0). 
inl i=1 
解 方程 9!(6)/66 = 0 可 得 
n— > ĝi 
i=1 


A 
27 56:(1— 4) 
i=l 
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H à: 5 0 满足 
S— i -0 
i=l n— 5 õi 
1+ =—*— (ù; — 0) + oi 
3 6:(1 — 0) 
i=1 
5 n 
sem E 
i=l n— De ĝi 
Mt S — (tii — 0) + Dah 


+ n 
5 5:(1—0) 


基于 数据 (Ya Xadi), F 可 由 权 为 A 的 加 权 经 验 分 布 估计 , 其 中 , pi 是 用 OA 与 
Do 代替 pi 中 的 OA. 与 A2 得 到 的 , 则 & 可 由 下 式 给 出 : 
~ (1 — wi)pi 
be ee Mi 

Qin 等 (2008) 在 一 定 条 件 下 证 明了 这 一 估计 是 渐 近 正 态 的 , 并 证 明了 当 w(x, a) 
与 w(z,G) 都 正确 假设 时 , fer 与 Robins-Rotnizky-Zhao 的 扩展 的 道 概率 加 权 估 计 
haaz = [GY 十 (ti — 6:)Ail/d;, 渐 近 等 价 , BI Valier 一 Paz) = op(1), 其 中 , wi 是 
P(6i = 1|Xi) 的 一 个 估计 , 六 是 E[Yi|X.] 的 一 个 估计 . 


6.5 ”部 分 线性 模型 统计 分 析 


考虑 部 分 线性 模型 
Y; = XTB + g(T;) + 


其 中 , Yi 是 独立 同 分 布 反映 变量 , X; 是 独立 同 分 布 d 维 协 变量 向 量 及 T; 是 独立 同 
分 布 一 元 随机 变量 , 9(.) 是 未 知 函 数 , 模型 误差 c 独立 同 分 布 且 在 给 定 协 变量 下 条 
件 均值 为 零 . 


6.5.1 ” 协 变 量 缺 失 下 模型 参数 与 非 参 数 部 分 估计 


Liang 等 (2004) Æ X 可 能 缺失 的 情况 下 定义 了 B 的 估计 , 并 在 MAR 假设 
下 讨论 了 估计 的 渐 近 有 效 性 问题 . Wang (2009) 也 考虑 了 B 的 估计 问题 , 定义 了 一 
个 与 Liang 等 (2004) 具有 相同 渐 近 方差 的 估计 , 并 定义 了 一 个 可 能 更 加 有 效 的 估 
计 . 下 面 介 绍 Wang (2009) 的 估计 . 设 Ui = 6;Xi/n(¥i, Ti), g(t) = E[X|T = t] 
及 g(t) = EYIT = t), 其中, A(y,t) = P(6 = UY = y,T = t). 很 显然 , g1(t) = 
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EIUIT = t]. Wang (2009) 首先 通过 模型 校准 定义 了 下 面 的 估计 : 
Buc = Bz An, 
其 中 ， 
Bn = 二 2 (Ui -91(%))(Ui ~ g, (T:))"] 
及 


Ay = 2 (U: — 9,(Ti)) (Yi ~ g92(T;)). 


实际 中 , AC), gC) 与 gz(.) 未 知 , 自然 地 , 人 们 可 以 用 它们 的 估计 取代 Bayo 中 相应 
的 未 知 量 , 而 定义 B 的 估计 Ayo. BKO 是 二 元 核 函 数 , ha 是 趋 于 零 的 窗 宽 序列 


为 简单 起 见 , 设 Zi; = (Ya T:)(i = 1,2,---,n), W A(z) 能 由 An(z) = ya K((z 

Z;)/hn) /> Do K (2-24) (fn) 估计 . 设 w() HG, bn 是 趋 于 零 的 窗 宽 序列 ,定义 

Wu = w((t — Dy)/hn) /> 2 一 Tt nl) = Yo Wry 8X5 / Mel Zs) 
j=l 


与 Gan(t) = y Wrj(t)¥; 是 gi(t) 与 g2(t) 的 相合 估计 . 设 Uin = 6:Xi/An(Xi)(i = 


j=1 
on), 于 是 用 AC), A(t) 与 各 (t) 取代 Auo 中 的 AC), g(t) 与 92(t) 即 可 得 
到 B 的 估计 Buc, 并 因此 可 定义 9(.) 的 估计 是 


9mc(t) = gen(t) 一 Îi n(t)Bmo- 
虽然 Wang (2009) 证 明 Bwyc 渐 近 正 态 , 但 渐 近 均值 为 
nmo = -2 Ell — A(X))XX7T/A(X)]B, 


其 中 , X = E(X 一 E[X|T])(X — E[X|T))™), 该 均值 一 般 为 非 零 的 值 . 若 是 
的 相合 估计 , Wang (2009) 定义 了 下 面 的 纠偏 估计 : 


全 
Buc = Buc 一 altace: 


其 中 ， 


< 
ee ee ey es ee 
Luc = n 2 An(Zi) XiX; B 
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及 n 
R 1 x A 
Suc = 元 2 Uin — ĝi n (Ti) (U in — ĝin (T:))™- 


F B JE BN nè 相合 估计 , Wang (2009) 证 明了 Buo 是 渐 近 均值 为 零 的 正 态 分 布 ， 
并 证 明了 Otc (t) 达到 最 优 收 敛 速度 n-1/3, 其 中 , fuot) 是 用 Buc RE mel) 
中 的 A 而 获得 . 然而 这 一 估计 依赖 一 个 na/2 相合 估计 A, 因而 这 一 估计 的 意义 在 
于 是 否 存在 这 样 的 估计 BY, 于 是 Wang (2009) 更 进一步 地 定义 了 下 面 的 加 权 估计 ， 
肯定 地 回答 了 这 一 问题 . 下 面 陈述 这 一 方法 . 

在 MAR 假设 下 有 


B= EX — E[X|T])(X — ELXITI)"]EI(X — ELXIT)(Y — E[Y|T])], 


EI(X - EIXIT)(X — ELIXIT)T] = E [a x - EIXIT)(X - BEKIZJ) 


E[(X — E[XITI)(Y - E[Y|T])] = E EG — E[X|T))(¥ — zti) 


A(Z) 
与 
seh. a oe 
sam- =[ 2h. 
KE EA” TASEEN, 8 可 由 下 式 估计 ; 
Bw = Bo An, (6.5.1) 
其 中 ， 
~ 15 (Xi — ĝi n(Ti) (Yi — G2,n(Ti)) 
ie) D ene o aa 
“及 


B, = 33 6:i(Xi — en = G1,n(Ti))* 
g(-) 则 可 由 下 式 估计 : 

ĝw (t) = G2,n(t) — ĝi n (t) Bw, 
; 设 M(z) = E(X — E[X|T])(Y — X7B — g(T))|Z = z]. Wang (2009) 证 明了 
Bw EAEEREN Vw = 允 -1f2w 允 ~ 的 渐 近 正 态 分 布 , 其 中 ， 
(X — E[XIT)(X ~ E[XIT)™(Y - XT™B— | 


人 | A(Z) 


A(Z) i 
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注意 到 Bw 与 Liang 等 (2004) 中 (5) 所 定义 的 估计 B 有 同样 渐 近 方差 , 但 
Bay 计算 复杂 . 

用 Aw RË Buc 中 的 B, 设 所 得 到 的 估计 是 Bmw. BR By Æ BM ni A 
合 估计 , 根据 文献 (Wang, 2009) 中 的 定理 2, Buw 是 渐 近 均值 为 零 、 方 差 为 Vuc 
的 渐 近 正 态 分 布 , 其 中 , Vuc 在 文献 (Wang, 2009) 中 定义 , 由 于 定义 牵涉 很 多 记号 ， 
为 节省 空间 , 在 此 略 去 . 

注意 到 上 面 所 描述 的 加 权 估 计 方 法 主要 使 用 完全 情形 的 信息 , 并 仅 通 过 A,() 
使 用 来 自 {(Yi, TT) : 6: = 0} 中 的 信息 . 既然 uc, 因此 , Buw 可 能 使 用 更 多 来 自 
{(¥i,T;) : 5; = 0} 的 更 多 信息 , 一 个 自然 的 问题 是 Buw 改进 By 吗 ? 不 幸 的 是 ， 
似乎 很 难 从 渐 近 方差 表示 比较 它们 的 渐 近 效率 , 然而 Wang (2009) 的 模拟 结果 表明 
Buw 的 确 有 较 小 的 标准 误差 . f 


6.5.2 ”反映 变量 缺失 下 反映 均值 估计 及 模型 参数 与 非 参 数 部 分 估计 


在 Wang(2009) 考虑 协 变量 缺失 部 分 线性 模型 的 估计 问题 后 Wang 等 (2004)， 
Wang 和 Sun (2007) 又 分 别 研究 了 当 反 映 变量 缺失 时 ， 部 分 线性 模型 反映 均值 及 
模型 参数 与 非 参数 部 分 的 估计 ( 注 : 文献 (Wang, 2009) 尽管 在 文献 (Wang, et al., 
2004) 后 发 表 , 但 它 先 于 后 者 完成 ). 

如 果 不 特 别 说 明 , 本 节 仍 沿用 上 节 的 一 些 记 号 . 设 K(:) 是 核 函 数 , hn 是 趋 于 0 
的 窗 宽 序列 , 定义 权 

K((t E Tj)/hn) 
£ 6; jK((t—T))/hn) 


Wnj(t) = 


EXD nlt) = 2 Wnj(t)X; 及 Go,n(t) = sa Wrj(t)¥;. Wang 等 (2004) 基于 观 
j=l 


_ 察 (Xi, Ti, Hae {il6; =1}) 定义 了 8 的 如 下 估计 : 
a 一 1 
B, = 2al: -Ji n(Ti)) (X: — Ban (oY 
x ys {( — Gin (Ti)) (Yi ~ Gon(Ti))}- 


设 
EXIT = 4 _ El6Y|T =t] 
gi(t) = EOT a” g2(t) = “Era i 
Wang 等 (2004) 得 到 


g(t) = ga(t) — gilt)" B, 
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用 Gi n(t), Gon(t) 及 局。 代替 上 式 中 的 g(t), 92(t) 及 B, 则 可 定义 g(-) 的 估计 如 
F: 


Gn(t) oz G2,n(t) = Fi n(t)Bn- 
得 到 9(.) 5 B 的 估计 后 , 可 转 过 来 定义 反映 均值 的 估计 ， 


= 6:Y; te ĝi 
ERI mu T n > (- P(X ay) OF Bn + fn(T)), 
j=l 


其 中 , Pila, t) 是 一 函数 序列 且 依 概率 极限 是 P* (x,t). Wang 等 (2004) 考虑 了 下 面 
的 一 些 特殊 情形 . 
首先 , 当 P*(z,t) = 1 时 , 得 到 9 的 回归 imputation 估计 


1 S46, Y; + (1 — 6:)(X7T Bn + Gn(Ti))}- 


i=1 


当 Px(x,t) = œ 时 , 得 到 下 面 的 边际 平均 估计 : 


i=1 
该 估计 正 是 回归 函数 估计 的 平均 . 定义 边际 倾向 性 得 分 函数 Pi(t) = P(5 = 1|T = 
t), 4 


m 


D GKE- T))/hn) 
P*(a,t) = ĵi (t) = = 


È KUE- T/A) | 
得 到 下 面 的 边际 倾向 性 得 分 加 权 估计 : 
A le ôiYi ĝi 
in-i Fan + (- pon (xTA, + att) 
然而 估计 Ôr, 不 同 于 通常 的 倾向 性 得 分 加 权 方法 , 通常 方法 使 用 满 倾向 性 得 分 函数 


估计 , 这 可 能 产生 “ 维 数 祸根 ”问题 . 估计 类 6 包含 的 另 一 个 估计 就 是 这 种 情况 , 当 
P*(z,t) = P(z,t) 时 得 到 


a a 
bp = eam 15 (1- RET) 人 Bn + Gn(Ti)}, 


1 


其 中 , P(x, t) 是 高 维 倾向 性 得 分 核 估 计 , 定义 如 下 : 


6;W ((@ — X;)/bn, (t — Tj)/bn) 
P(a, t) = =, 
2 W((x — X;)/bn, (t — Tj)/bn) 
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其 中 , We, ) 是 核 函数 , bn 是 窗 宽 序列 . 这 个 估计 依赖 高 维 光滑 ,“ 维 数 祸根 ”问题 
可 能 限制 这 一 方法 的 使 用 . 

HP (t) = P(ô = 1T = t), P(æ,t) = P(6 = 1|X -7z,T=t),m(z,t) = £"8 + 
g(t), A Se (x,t) = EY — X78 - g(T)}|X = z,T = t]. ZX ule, t) = æ - g, (t), 
= = E[P(X,T)u(X,T)u(X,T)"). 

Wang 等 (2004) 在 其 附录 中 所 列 的 条 件 下 , 证 明了 6 是 渐 近 具有 均值 为 0, H 
ŽA V 的 正 态 分 布 的 , 其 中 ， 


V = E{(mo(X,T) + m(X,T))?P(X,T)o?(X,T)| + Var[m(X,T)}, 


当 Px(a,t)€{1, 00, Pi (t)} BY, mola, t)=1/Pi(t) B. m (a, t)=Elu(X,T)"]E-*u(@,t), 
而 当 P*(z,t) = P(a,t) BY, xo(z,t) = 1/P(x,t) H. mı (x,t) = 0. 
从 上 面 的 结果 可 以 看 到 当 P+(z,t) € {1,00, Ê, (t)} 时 , 估计 6 记 为 各 , 它们 有 
共同 的 渐 近 方差 , 记 为 V", 而 当 Pr(w,t) = Py(w,t) 时 , 估计 6 有 不 同 的 渐 近 方差 
Wang 等 (2004) 进 一 步 比 较 了 全 与 估计 类 中 其 他 估计 及 下 面 的 非 参数 估计 类 : 


~ Yo6i Lae 6; s 

O= O KT) aS 人 证) 和 Ce 
的 渐 近 功效 , 其 中 , inl, -) 是 ElY|X,7] 的 非 参数 核 回归 估计 . 尽管 已 知 当 Pie, 
1) € (1,00, Pla, t)}, 估计 类 关中 所 对 应 的 三 个 估计 尽管 在 非 参数 模型 下 渐 近 等 价 


于 逆 概 率 加 权 估计 Dun = n 》 MYi6/ 户 (Xi, T:), 并 且 达 到 半 参 数 浙 近 有 效 界 ， 


i=1 
而 是 渐 近 有 效 估计 , 但 在 部 分 线性 模型 假设 下 , 这 些 非 参数 估计 并 不 是 渐 近 有 效 的 ， 
原因 是 在 部 分 线性 模型 假设 下 , 半 参 数 有 效 界 减 小 , 而 Wang 等 (2004) 证 明 估计 类 
6* 达到 这 一 半 参 数 有 效 界 , 因而 是 渐 近 有 效 估计 . 此 外 , Wang 等 (2004) 还 进一步 
讨论 了 有 关 估 计 的 稳健 性 . 

此 外 , Wang 和 Sun (2007) 研究 了 反映 变量 缺失 时 B 与 g(-) 的 估计 问题 , 定义 
了 插 补 估计 , 逆 概 率 加 权 估 计 与 半 参 数 回归 替代 估计 , 研究 了 它们 的 渐 近 性 质 , 由 
于 篇 幅 所 限 , 不 在 此 介绍 . 


6.6” 半 参数 总 体 模型 统计 分 析 


6.6.1 协 变量 缺失 下 模型 参数 估计 


考虑 半 参 数 总 体 fo(y|X,z) dG(z|z) dH(z), 其 中 , fa(y|z, z) 是 给 定 协 变量 (X, Z) 
F, Y 的 条 件 密度 , G 与 HW 分 别 定义 完全 未 知 ( 非 参 数 ) 的 条 件 和 边际 协 变量 分 布 
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函数 ， 假 设 完全 观察 (X1, Yi, Zi) (Xn, Yn, Zn) 是 从 上 述 半 参数 总 体 抽取 的 样 
本 , 然而 在 一 些 实际 问 题 中 ，X; 可 能 缺失 , 使 得 观察 到 的 数据 是 (Yi, Xi, Zi, di) (i = 
1,2,… ,n), 其 中 , 全 部 (Yi, Zi) 被 观察 , 若 X; 缺失 , 5; = 0; 否则 , 6; = 1. 假设 MAR 
缺失 机 制 , 即 假设 


P(5 = 1|Y,X,Z) = P(ô = 1lY, Z) = n(Y, Z). 


下 面 仅 集中 讨论 2 是 离散 变量 情形 , 结果 容易 推广 到 2 是 连续 情形 . 对 固定 
的 G, 观察 数据 条 件 似 然 为 


LB, G) = J] fox 20) JI f t0512, 25) a(aZ5), 


icV jev 
其 中 , V = {il6; = 1}. 假设 得 分 函数 和 有 关 积 分 均 存在 , 则 得 分 函数 是 
_ Alog L(G;G) 
Sa(Y¥jlx, Z;)fa(Yjla, Z;)dG(a|Z;) 
=> Sa(¥ilXi, Zi) + D> J 50e ZD sect) (6.6.1) 
= iv J fo(Y;lz, Z;)AG(2|Z;) 


在 式 (6.6.1) 中 , 用 G(-|z) 的 估计 取代 之 即 得 到 得 分 函数 的 估计 . 由 Bayes 定理 , 4 
P(6 = 1|X, Z) > 0 时 有 


dP(X < x|Z,6 = 1)P(6 = 1|Z) 
P(6 = 1|X =a, Z) 


用 式 (6.6.2) 代替 式 (6.6.1) PH dG 得 到 下 面 的 拟 得 分 函数 : 


dG(z|2) = (6.6.2) 


05 Z5, 2, 21)aG (aZ) 
SiCn=>. Binns > a 
ieV jev [iaa Z;)AG* (2|Z;) 

(6.6.3) 


其 中 , G*(-\z) = P(X < .|z,6 = 1),h5(y,2,z) = falylz, z)/q5(a, z), 45(X,Z) = 
P(6 = 1|X, Z) = / nly, Z)fa(y|X, Z)dy > 0. 显然 , G*(z|z) 可 直接 使 用 
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估计 , 并 且 该 估计 是 相合 的 , 其 中 , 7 是 某 事件 4 的 示 性 函数 . 
用 G 代替 式 (6.6.3) 中 的 G* 得 到 


5Sps(6;Gnm)=》 Sa(VilX Zi) + > >, 


iEVY jev iev 


Sa(Yj|Xi, 2;)h3(Y;, Xi, ZiM{Z = Zi] 
Dev AB(YG, Xo ZZ = Z) 
(6.6.4) 


显然 , 若 r = mo 已 知 , 则 解 方程 Sps(B, Gn, no) = 0 可 获得 6 的 估计 . 实际 上 , 即使 
7 已 知 , 仍 建议 用 r 的 基于 正确 模型 的 估计 元 代替 Sps(8, Gn, To) 中 的 ro, 然后 由 
5Sps(8,Gn,f) =0 的 解 定义 B 的 估计 , 这 样 得 到 的 估计 可 能 更 有 效 . 而 估计 方程 可 
由 Newton-Raphson 算法 求解 ,Chatterjee (2003) 给 出 了 求解 的 步骤 , 并 证 明了 
在 该 文 所 列 的 条 件 下 , Sps(B, Gn, i) 存在 唯一 的 相合 且 渐 近 正 态 的 解 序 列 {B75}. 

很 显然 , 基于 式 (6.6.1) 的 一 个 直接 估计 是 使 用 下 面 G 的 道 概率 加 权 Horvitz- 
Thompson 估计 : 

I[Xi < z, Zi = 2z|/mo(¥i, Zi) 
we S TZ; = /rolY, Z) 

代替 其 中 的 G， 然 而 如 此 得 到 的 估计 没有 上 面 所 定义 的 估计 {B75} 有效， 原因 
是 Chatterjee (2003) 使 用 回归 模型 fa(y|z,z) 的 信息 定义 更 加 有 效 的 权 . 在 式 
(6.6.3) 中 , h3(Y, X, Z) = fa(¥|X, Z)/q5(X, Z), 1/95(X, Z) 可 以 看 成 估计 G(X|Z) 
的 新 的 逆 概 率 权 , FF AAA 93 (X, Z) = P(6 = 1|X, Z) = E[n(Y, Z)|X, Z], 从 而 有 理 
由 认为 这 一 新 的 权 函 数 可 变性 较 小 , 因而 比 Horvitz-Thompson 权 1/x(Y,Z) 更 加 
有 效 . 


6.6.2 ”反映 变量 缺失 下 模型 参数 估计 


te X 是 d 维 协 变量 向 量 , Y 是 反映 变量 , 设 完全 数据 (X,Y) 服从 半 参 数 总 体 
分 布 f(ylz,9)dG(z), 其 中 , f(y|z,0) 是 包含 未 知 参数 的 条 件 概率 密度 函数 ，G 是 协 
变量 X 的 非 参数 分 布 (完全 未 知 ). 假设 获得 下 面 的 不 完全 数据 随机 抽样 : 


(Xi, Yi, ĉi), i= 1,2,--- n 


其 中 , 全 部 X: 被 观察 , 6; 是 示 性 函数 , 5; = 0 表示 Y: WK, 6; = 1 表示 Y, 被 观察 . 
现 假设 有 辅助 信息 EyY(X. 0) = 0, 其 中 , Y(X, o) 是 p x 1 已 知 的 向 量 值 函数 . 


为 了 使 用 这 一 辅助 信息 , 在 约束 条 件 Dn = 2i Yrs 0) = 0 极 大 化 下 面 
的 似 然 函数 : i 


Zo(g) = [I 0x, oada(x: {dG (X) pA -fja [1 (Yi|X;,0), 


i=1 
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其 中 ， Pi = dG(Xi). 
若 零 向 量 在 小 (XX1,0),… (Xn, 0) 的 凸 包 中 , 则 由 Lagrange 方法 可 得 


log Lo(9) = 一 > log {1 +Â Y(Xi,0)} +》 dilog f(ViIX:.0), (6.6.5) 
i=1 i=1 
其 中 , 入 是 下 面 方程 的 解 : 
ea T R (6.6.6) 
> 1 十 入 p(X: 0) 


设 On au 是 满足 下 面 方程 的 一 个 估计 : 


alog Lo(8) 
00 


设 Yy ay 抽 自 被 估计 条 件 总 体 FLX, nav) = 1.2,… mu 了 = 1,2,… ,m), 然后 
EARE 》 pi = 1 与 》 pith Xi,0) = 0 下 关于 了 = (pi,… ,pn) 极 大 化 下 面 基 


i=1 i=1 


于 播 补 的 半 经 验 似 然 : 


= 0. 


Lau (0,p) = -TIJUealxsoacGxcoja Theos, au|Xi,0)dG(Xi)}-* 
i= = j=l 


-1 LU (Yi|Xi,0) [m0 0X0) 
其 中 ， Pi = dG(X;). 
B Lav (0) 是 所 获得 的 极 大 , 类 似 于 式 (6.6.5), 可 以 获得 


log Lau (0) = ee 0)} + 3 di log f(¥i| Xi, 0) 


i=l 


+f CH Desai 0), 


其 中 , 入 满足 式 (6.6.6). 解 下 面 的 方程 : 
DLAarr(g) 
30 
其 解 可 作为 0 的 估计 , 该 估计 称 为 插 补 半 经 验 似 然 估计 , 并 定义 为 bn av. Wang 和 
Dai (2008) 证 明了 该 估计 的 渐 近 正 态 性 , 并 与 没有 辅助 信息 下 所 定义 的 似 然 插 补 估 
计 进 行 了 比较 , 表明 辅助 信息 使 用 改进 推断 . 此外, Wang 和 Dai (2008) 还 进一步 
考虑 了 反映 变量 均值 的 估计 问题 , 由 于 篇 幅 所 限 , 不 在 此 介绍 . 


= 0, 
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6.7 生存 分 析 中 的 缺失 数据 问题 


生存 数据 的 一 个 共同 特征 是 观察 常常 是 右 删 失 的 . 删 失 发 生 常 常 因 个 体 中 途 
退出 试验 或 试验 在 所 有 个 体 死亡 前 就 已 结束 , 此 外 , 当 个 体 死亡 有 多 种 死亡 原因 时 ， 
某 个 原因 死亡 的 死亡 时 间 可 能 因为 其 他 原因 死亡 而 被 删 失 . FE, 当 对 某 个 特别 原 
因 感 兴趣 时 , 那么 因为 其 他 原因 死亡 就 被 看 成 随机 删 失 . 

设 了 与 C 是 两 个 随机 变量 , 它们 分 别 定义 因 感 兴趣 原因 死亡 的 死亡 时 间 和 
右 删 失 时 间 . 假设 T 独立 于 C, 在 随机 右 删 失 下 , 只 能 观察 到 了 与 C 中 最 小 值 
X=TAC 及 一 个 示 性 变量 5 = IT < Cl. 然而 在 很 多 实际 问题 中 , 如 在 临床 研 
究 中 , 一 些 个 体 死亡 原因 未 知 , 也 就 是 个 体 死亡 是 因为 感 兴趣 疾病 死亡 还 是 其 他 疾 
病死 亡 不 清楚 ， 从 而 导致 6 缺失 . 这 方面 的 例子 可 参见 文献 (van der Laan, et al., 
1998) 及 其 参考 文献 . 

实际 上 , 当 6 缺失 时 , 已 有 很 多 研究 工作 , 其 中 , 包括 生存 函数 估计 、 失 效率 估 
计 、 处 理 差 估计 及 对 数 秩 检 验 等 方面 的 工作 . 已 经 知道 生存 分 布 函 数 估计 问题 是 生 
存 分 析 中 最 基本 的 问题 , 因此 , 这 里 仅 介 绍 生 存 函 数 的 估计 问题 . 显然 , 定义 生存 分 
布 函数 估计 的 一 个 基本 和 直接 方法 是 使 用 CC 方法 定义 Kaplan-Meier 乘积 限 估计 ， 
然而 这 一 方法 在 MAR 缺失 机 制 下 定义 不 相合 且 无 效 估计 . 在 MCAR F, 一 些 作 
者 对 CC 估计 提出 了 很 多 改进 (Wang and Ng, 2008, 引言 ). 最 近 , van der Laan 和 
McKeague (1998) 在 MAR 下 定义 了 生存 函数 的 相合 估计 , 并 在 比 MAR 稍 强 的 假 
设 下 证 明了 该 估计 的 渐 近 有 效 性 . 然而 , 该 估计 在 实践 中 并 不 令 人 吸引 , 因为 估计 
的 构造 需要 特别 的 分 割 、 一 些 人 为 选择 的 点 及 对 数据 进行 人 为 的 切片 等 , 这 使 得 该 
估计 在 实践 中 很 难 应 用 . 此 外 , 该 估计 小 样本 有 严重 偏差 . 为 此 , Wang 和 Ng (2008) 
定义 了 几 个 渐 近 有 效 乘积 限 估 计 , 该 估计 更 加 充分 地 使 用 了 所 获得 数据 的 信息 , 并 
且 没 有 分 割 、 切 片 和 人 为 选择 点 的 需要 . 下 面 介绍 这 些 估 计 . 

RF GRARWERXT,CS X 的 分 布 函数 , 定义 Hi(t) = P(X <t,5=1), 
则 累积 风险 函数 


t 1 t 1 


由 (Dikta, 1998) 有 
Hi(t) = P(6=1,X <t) = [ maano, 
0 


其 中 , m(z) = P( = 1|X = x) = EI6|X = a}. 这 与 式 (6.7.1) 一 起 得 到 
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t m(z) 


当 删 失 示 性 缺失 时 ， 所 获得 的 观察 数据 是 {(Xi, ĝi, £i), 1 = 1, 2,--: sn}, 其 中 ， 
Xi 总 是 被 观察 , 若 5 缺失 , & = 0; 否则 , & = 1 设 Hn(t)= n YIX: < t), 


i=1 
H,(t-) = lim Hn (£) 及 Hni(t) = na YIIX < tôi = 1). 车 使 用 观察 数据 
i=1 
(Xirda ihi = 1,2,---,n} 定义 m(z) 的 一 个 估计 mn(z)， 则 A(t) 能 被 估计 如 
F: 


_ f/f: mn(z) mn(Xi) ; 
An(t) = Í et aa (6.7.2) 


其 中 , Ri 定义 X; 在 和 样本 中 的 秩 . 注意 到 生存 函数 S(t) := 1— F(t) = exp{ 一 A(t)}, 
则 S(t) 可 由 exp{—An(t)} 估计 . 由 近似 表示 exp{-c} 1-2 有 


1 mn (Xi) n— Ri mn (Xi) 
exp{—An(t)}}= |] (ew {- 二 高)) w Gere ay, 


iX: <t 


这 启发 我 们 考虑 下 面 的 乘积 限 估计 : 


Wick: R; mn(Xi) 
Sn(t)= [I (45) (6.7.3) 


其 中 , W(-) 是 核 函 数 , bn 是 窗 宽 序列 . 定义 


È (Eiði /Tn(X:))K((E — X;)/hn) 


Mn(z) = 


È (E/T (XK (E = X:)/hn) | 


其 中 , K(-) 是 核 函 数 , hn 是 窗 宽 序 列 . 于 是 第 一 个 加 权 估计 5%,w(t) 可 在 Sn(t) 中 
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注意 到 Sn w(t) 实际 上 是 将 Kaplan-Meier 乘积 限 估计 (KM 估计 ) 中 的 6; 换 
成 郊 。(Xi) 而 得 到 的 , i = 1,2,… ,n. 直观 上 , 这 个 估计 可 修改 为 仅 将 KM 估计 中 
缺失 的 6; 换 成 Monl Xi), 而 对 没有 缺失 的 6; AER, 这 就 得 到 下 面 的 插 补 估计 : 


Eidit+(1— Ei) Mn (Xi) 
) l (6.7.4) 


Š n— Ri 
Sn r(t) = IL (= Reni 
该 插 补 估计 也 可 由 下 面 的 事实 得 到 : 
E[E€6 + (1 — €)m(X)] = 五 [9]. 


车 用 ; 
> Eidi K (x = Xi)/hn) 


M(x) = 三 


È &:K ((x — Xi)/hn) 


RAF 5,7(t) 中 的 Anl), 则 得 到 另 一 个 插 补 估计 Sy,7(t). 
设 r(z) = P(E = 1|X = x). 注意 到 在 MAR 下 有 


Elé5/7(X) + (1 - £/1(X)}m(X)] = Eð] 
及 za(z) 是 xfz] 的 核 回归 估计 , 于 是 又 可 定义 下 面 的 道 概率 加 权 估计 ; 


这 & z 
$ -R \ med (85 amo 
Sn,w (t) = ĮI (; = Ri + i) a i (6.7.5) 


:Xt 


在 所 提出 的 4 个 估计 中 , 当 5 被 完全 观察 时 , 两 个 插 补 估计 和 一 个 逆 概 率 加 权 
估计 变 为 乘积 限 估计 , 而 Sn w(t) 变 成 光滑 的 Kaplan-Meier 乘积 限 估计 . Wang 和 
Ng (2008) 证 明了 上 面 所 提出 的 4 个 估计 均 是 一 致 强 相 合 的 , 渐 近 有 效 并 弱 收 敛 到 
高 斯 过 程 . 


致谢 ”感谢 我 的 博士 生来 鹏 对 本 章 认真 仔细 的 检查 , 并 指出 一 些 打印 错误 和 
文献 疏漏 情况 .本 项 目 得 到 国家 杰出 青年 基金 (10725106)、 教 育 部 长 江 学 者 云南 
大 学 研究 基金 、 国 家 自然 科学 基金 面 上 基金 (10671198) 及 国家 创新 群体 科学 基金 
资助 . 


参考 文献 


Carroll R J, Wand M P. 1991. Semiparametric estimation in logistic measurement error 
models. J. R. Statist. Soc. B 53: 652~663 


- 188 - 第 6 章 缺失 数据 回归 分 析 


Chatterjee N, Chen Y H, Breslow N E. 2003. A pseudoscore estimator for regression prob- 
lems with two-phase sampling. Journal of the American Statistical Association, 461: 
158~169 

Chen J H, Shao J. 2000. Nearest neighbor imputation for survey data. Journal of Official 
Statistics, 16: 113~131 

Cheng P E. 1994. Nonparametric estimation of mean functionals with data missing at 
random. Journal of the American Statistical Association, 89: 81~87 

Dagenais M G. 1973. The use of incomplete observations in multiple regression analysis: a 
generalized least squares approach. Journal of Econometrics, 1: 317~328 

Dempster A P, Laird N M, Rubin D B. 1977. Maximum likelihood from incomplete data 
via the EM algorithm. Journal of the Royal Statistical Society, Ser B 39: 1~38 

Dikta D. 1998. On semiparametric random censorship models. Journal of the Statistical 
Planning and Inference, 66: 253~279 

Fay R. 1996. Alternative paradigms for the analysis of imputed survey data. Journal of the 
American Statistical Association, 91: 490~498 

Gourieroux C, Monfort A. 1981. On the problem of missing data in linear models. Review 
of Economic Studies, 48(4): 579~586 

Healy M J R, Westmacott M. 1956. Missing values in experiments analysed on automatic 
computers. Appl. Statist, 5: 203~206 

Horvitz D G, Thompson D J. 1952. A generalization of sampling without replacement from 
a finite universe. Journal of the American Statistical Association, 47: 663~685 

Ibrahim J G, Chen M H, Lipsitz S R, et al. 2005. Missing-data methods for generalized 
linear models: a comparative review. Journal of the American Statistical Association, 
100: 332~346 

Lawless J F, Kalbfleisch J D, Wild C J. 1999. Semiparametric methods for response-selective 
and missing data problems in regression. Journal of the Royal Statistical Soecity. Ser, 
B 61: 413~438 

Liang H, Wang S, Robins J M, et al. 2004. Estimation in partially linear models with 
missing covariates. Journal of the American Statistical Association, 99: 357~367 

Lipsitz S R, Ibrahim J G. 1996. A conditional model for incomplete covariates in parametric 
regression models. Biometrika, 83: 916~922 

Lipsitz S R, Ibrahim J G, Zhao L P. 1999. A new weighted estimating equation for missing 
covariate data with properties similar to maximum likelihood. Journal of the American 
Statistical Associatio, 94: 1147~1160 

Little R J A. 1992. Regression with missing X’s: a review. 87: 1227~1237 

Little R J A, Rubin D B. 2002. Statistical Analysis with Missing Data. 2nd ed. New York: 
Wiley 

Little R J A, Schluchter M. 1985. Maximum likelihood estimation for mixed continuous and 


参考 文献 - 189 . 


categorical data with missing values. Biometrika, 72: 497~512 

Marker D A, Judkins D R, Winglee M. 2002. Large-scale imputation for complex surveys, 
Chapter 22, in Survey Nonresponse Jn: Groves R M, Dillman D A, Eltinge J L, et al., 
New York: Wiley 

Matloff N S. 1981. Use of regression functions for improved estimation of means. Biometrika, 
68: 685~689 

Owen A. 1988. Empirical likelihood ratio confidence intervals for single functional. Biometrika, 
75: 237~249 

Pepe M S. 1992. Inference using surrogate outcome data and a validation sample. Biometrika, 
‘79: 355~365 

Pepe M S, Fleming T R. 1991. A non-parametric method for dealing with mismeasured 
covariate data. Journal of the American Statistical Association, 86: 108~113 

Qin J. 2000. Cambining parametric and empirical likelihoods. Biometrika, 87: 484~490 

Qin J, Shao J, Zhang B. 2008. Efficient and doubly robust imputation for covariate- 
dependent missing responses. Journal of the American Statistical Association, 103: 
797~809 

Rao J N K, Shao J. 1992. Jackknife variance estimation with survey data under hot deck 
imputation. Biometrika, 79: 811~822 

Reilly M. 1993. Data analysis using hot-deck multiple imputation. Statistician, 42: 307~313 

Reilly M, Pepe M S. 1995. A mean-score method for missing and auxiliary covariate data 
in regression models. Biometrika, 82: 299~314 

Robins J M, Rotnitzky A, Zhao L P. 1994. Estimation of regression coefficients when some 
regressors are not always observed. Journal of the American Statistical Association, 89: 
846~866 

Rubin D B. 1978. Multiple Imputation for nonresponse in surveys- a phenomenological 
Bayesian approach to nonresponse. In Proc. Survey Res. Meth., Am Statist. Assoc. 
Washington, D. C.: American Statistical Association 

Rubin D B. 1987. Multiple Imputation in Sample Surveys. New York: Wiley 

Ruud P A. 1991. Extensions of estimation methods using the EM algorithm. Journal of 
Econometrica, 49: 305~341 

Schafer J L. 1997. Analysis of Incomplete Multivariate Data. London: Chapman & Hall 

Scharfstein D O, Rotnizky A, Robins J. 1999. Adjusting for nonignorable drop out in semi- 
parametric nonresponse models (with discussion). Journal of the American Statistical 
Association, 94: 1096~1146 

Stefanski L A, Carroll R J. 1985. Covariate measurement error in generalized linear models. 
Biometrika, 72: 583~592 

Vach W. 1994. Logistic Regression with Missing Values in the Covariates. New York: 


Springer-verlag 


- 190 - 第 6 章 缺失 数据 回归 分 析 


van der Laan, Mark J, Mckeague W. 1998. Efficient estimation from right-censored data 
when failure indicators are missing at random. The Annals of Statistics, 26: 164~182 

Wang C Y, Wang S J, Gutterrez R. G, et al. 1998. Local linear regression for generalized 
linear models with missing data. The Annals of Statistics, 26: 1028~1050 

Wang N, Robins, J M. 1998. large-sample theory for parametric multiple imputation pro- 
cedures. Biometrika, 85: 935~948 

Wang Q H. 1999. Estimation of partial linear error-in-variables models with validation data. 
Journal of Multivariate Analysis, 69: 30~64 

Wang Q H. 2009. Statistical estimation in partial linear models with covariate data missing 
at random. Ann. Inst. Stat. Math, 61: 47~84 

Wang Q H, Dai P J. 2008. Semiparametric model-based inference in the presence of missing 
responses. Biometrika, 95: 721~734 

Wang Q H, Ng, K. 2008. Asymptotically efficient product-limit estimators with censoring 
indicators missing at random. Statistica Sinica, 18: 749~768 

Wang Q H, Linton O, Hardle W. 2004. Semiparametric regression analysis with missing 
response at random. Journal of the American Statistical Association, 99: 334~345 

Wang Q H, Rao J N K. 2002a. Empirical likelihood-based inference in linear models with 
missing data. Scandinavian Journal of Statistics, 29: 563~576 

Wang Q H, Rao J N K. 2002b. Empirical likelihood-based inference under imputation for 
missing response data. The Annals of Statistics, 30: 896~924 

Wang Q H, Rao J N K. 2002c. Empirical likelihood-based inference in linear error-in- 
covariables models with validation data. Biometrika, 89: 345~358 

Wang Q H, Sun Z H. 2007. Estimation in partially linear models with missing responses at 
random. Journal of Multivariate Analysis, 98: 1470~1493 

Wittes J, Lakatos E, Probstfield J. 1989. Surrogate endpoints in clinical trials: Cardiovas- 
cular diseases. Statistics in Medicine, 8: 415~425 

Yates F. 1933. The analysis of replicated experiments when the field results are incomplete. 
Empire Journal of Experimental Agriculture, 1: 129~142 


第 7 章 ”复发 事件 数据 的 统计 分 析 


7.1 引 言 


复发 事件 数据 是 指 对 一 些 个 体 进行 观察 , 某 种 感 兴趣 事件 重复 发 生 的 时 间 所 组 
成 的 数据 , 这 类 数据 经 常 出 现在 生物 、 医 学 、 社 会 和 经 济 学 等 研究 领域 中 . 例如 , 病 
人 某 种 疾病 的 多 次 复发 时 间 、AIDS 病 和 一 些 传染 病 的 重复 感染 时 间 、 动物 某 些 肿 
瘤 的 重复 发 生 时 间 、 一 些 国 家 妇女 的 各 次 生育 时 间 、 某 些 机 器 故障 的 多 次 发 生 时 
间 等 . 

对 这 类 数据 的 研究 不 同 于 一 次 观察 的 横向 数据 , 因为 事件 重复 发 生 的 时 间 是 
有 次 序 的 , 并 具有 相依 性 , 同时 由 于 删 失 时 间 的 存在 以 及 删 失 时 间 可 能 与 事件 发 生 
的 时 间 也 具有 相依 性 等 , 使 得 对 复发 事件 数据 的 分 析 、 建 模 及 统计 推断 变 得 十 分 困 
难 . 但 由 于 复发 事件 数据 结构 自身 具有 重要 的 特点 和 广泛 的 应 用 , 对 它 的 统计 分 析 
已 经 受到 世界 各 国 , 特别 是 发 达 国 家 的 重视 , 其 研究 结果 不 仅 具 有 重要 的 理论 意义 ， 
而 且 具 有 广泛 的 应 用 前 景 . 

由 于 复发 事件 数据 可 以 看 成 一 种 特殊 的 多 维 生 存 数据 , 经 常会 用 多 元 生存 分 
析 的 方法 来 研究 这 类 数据 ， 具 体 可 参见 文献 (Prentice, et al., 1981; Andersen and 
Gill, 1982; Wei, et al., 1989) 等 . 然而 复发 事件 数据 的 结构 比较 特殊 , 在 使 用 多 元 
生存 分 析 方 法 对 其 进行 研究 时 需要 谨慎 . 近 十 几 年 来 生物 和 医学 统计 的 发 展 , 对 于 
复发 事件 数据 的 研究 已 经 取得 了 很 大 的 进步 , 建立 了 许多 重要 的 统计 模型 (Cai and 
Schaubel, 2004). 但 在 这 一 研究 领域 中 仍然 存在 一 些 重要 的 和 比较 难 的 统计 问题 ， 
特别 是 事件 发 生 的 时 间 与 删 失 时 间 具 有 相依 关系 的 时 候 . 


n= f “aqNi(s) 为 第 i 个 个 体 在 fo. 引 上 所 发 生 的 事件 次 数 i= 1,--- <n. 
0 


其 中 , dN; (s) 表示 在 区 间 [s,s+ds) 内 事件 发 生 的 次 数 . 在 大 多 数 实际 应 用 中 , 总 是 
在 有 限 的 时 间 内 来 考察 个 体 , 因此 ，Ni(.) 不 可 能 完全 观察 , 记 第 i 个 个 体 的 删 失 时 
间 为 Ci 则 第 i 个 个 体 的 观察 范围 为 [0, Ci]. 事件 发 生 时 间 记 为 Ta, Tin, 设 
Ci 与 Nil(t) 独立 , 若 有 协 变量 存在 , 则 假设 放宽 为 在 给 定 协 变量 下 , 删 失 时 间 CG; 与 
Ni(t) 条 件 独 立 . 对 于 第 i 个 个 体 第 大 次 事件 , 所 能 观察 到 的 数据 是 Xir = Tik ACi 
和 Aix = T(Ti < Ci), 其 中 ,aAb = min(a, b), 1) 为 示 性 函数 , 用 来 表示 事件 发 生 的 
真实 时 间 是 否 被 观察 到 . 记事 件 发 生 的 间隔 时 间 为 Ti; = Ty- Tj- 其 中 , Tio = 0. 


本 章 作 者 : 孙 六 全 , 中 国 科 学 院 数学 与 系统 科学 研究 院 研究 员 . 
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设 ZO 表示 依赖 时 间 变化 的 协 变量 向 量 , JFL m = Ymi. 由 于 Ni(t) > 0 ER 


取 整 数值 , 同时 满足 对 于 任意 的 s < t, Ni(s) < Ni(t) 以 及 (s 中 发 生 的 事件 数 为 
Ni(t) 一 Ni(s), 因此 , {Ni(t)|t > 0} 是 一 个 计数 过 程 (Ross, 1989). 

ei ee a a, (Andersen, et al., 1993; 
Cox and Isham, 1980). 在 这 些 模型 中 , 如 果 知道 事件 历史 的 概率 分 布 , 其 参数 估计 
通常 使 用 极 大 似 然 或 部 分 似 然 方法 . 但 完全 刻画 {Ni(t)lt > 0} 的 分 布 通常 是 比较 
困难 的 , 而 且 其 分 布 及 其 模型 十 分 复杂 . 此 外 , 一 般 感 兴趣 的 往往 只 是 事件 过 程 中 
的 一 部 分 , 这 就 促使 我 们 考虑 基于 边际 均值 或 比率 函数 等 研究 方法 . 由 于 事件 的 均 
” 值 函数 比 强度 函数 更 具有 解释 意义 , 一 些 作 者 已 经 对 均值 或 比率 函数 进行 了 统计 分 
析 . 下 面 严 格 给 出 强度 、 均 值 和 比率 函数 的 定义 . 尽管 它们 之 间 有 着 很 强 的 内 在 联 
系 , 但 它们 之 间 的 区 别 在 统计 建 模 时 是 很 重要 的 . 

W Ni = {Ni(s)|s € [0,t)} 为 第 i 个 个 体 在 时 间 上 时 的 事件 历史 如果 
E(aN,(t)|NG(t)) = Alt N: (E) dt, W AINM) 定义 为 计数 过 程 N;(t) 的 强度 过 程 


或 强度 函数 (简称 为 强度 )、 Ai(tIN(t) y= f ANi(slNi(s))ds 为 累积 强度 函数 ， 易 知 


{Ni(t)lt > 0} 的 概率 分 布 完全 由 和 i(t|Ni(t)) 来 决定 . 例如 , 设 第 i 个 个 体 的 mi 个 
事件 发 生 时 间 为 th ,… ,tim,, 则 它们 的 联合 概率 密度 为 


7" (tis|Ni(tis)) exp { — f i Xi(slNMi(s))ds}， (7.1.1) 
j=l 0 


其 中 , r 为 一 个 预先 给 定 的 常数 旦 满足 tim, < T. 表达 式 (7.1.1) 是 参数 的 极 大 似 
然 估计 及 其 相关 统计 推断 的 基础 ,虽然 极 大 似 然 估 计 在 理论 上 是 可 行 的 , 但 由 于 
AINE) 的 复杂 性 , 使 得 其 计算 有 时 是 比较 困难 的 . 对 于 一 些 特殊 的 事件 过 程 ， 
和 i(t|NMi(t)) 会 变 得 简单 些 . 例如 , 对 于 Poisson WE, Ai(t\Mi(t))=Ai(t), 而 对 于 更 新 
过 程 , 和 A;(t|Ni(t)) = Ailt 一 TNi(t-)) (Chiang, 1968). 当 只 对 事件 发 生 次 数 感 兴趣 时 ， 
可 用 Poisson 过 程 来 建 模 , 而 当 关 注 的 是 事件 发 生 的 间隔 时 间 时 , 可 用 更 新 过 程 来 
建 模 . 

当 研究 目的 是 探讨 协 变量 对 事件 过 程 的 影响 时 , 一 般 从 边际 分 布 着 手 , 这 样 可 
以 避免 对 个 体内 部 相依 结构 进行 假设 . 由 于 边际 均值 函数 和 比率 函数 容 曼 解释 , 同 
时 , 非 统 计 学 者 也 容易 明白 其 含义 , 而 且 它们 常常 也 是 研究 的 直接 目的 , 所 以 通常 
也 对 边际 均值 和 比率 函数 进行 直接 建 模 ， 著 {dNi(t)} = ri(t)dt, 则 ri(t) 称 为 
N,(t) 的 比率 函数 . 记 pilt) = E(N}, W u(t) 称 为 Ni(t) 的 均值 函数 . 虽然 对 于 
Poisson 过 程 , rm 人 = 和 i(t), 但 一 般 来 说 , 这 两 者 是 不 相等 的 , 而 且 ri(t) 不 需要 刻画 
事件 过 程 的 全 部 分 布 . 
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一 个 给 定 的 边际 模型 和 其 相关 的 条 件 模型 之 间 没 有 简单 的 对 应 关系 . 在 条 件 模 
型 中 , 协 变量 效果 的 直观 解释 往往 在 边际 模型 中 是 不 存在 的 ,反之 亦 然 .另外 , 基 
于 事件 计数 、 事 件 发 生 时 间 以 及 事件 间隔 时 间 的 边际 模型 也 是 不 同 的 , 但 有 如 下 
关系 : 


k 
P(Ni(t) < k) = P(Tik > t) = P ($7 > ) : 
j=1 


本 章 主要 介绍 复发 事件 数据 研究 方面 的 一 些 非 参数 和 半 参 数 方法 以 及 最 近 进 
展 , 多 数 材料 直接 取 自 相关 文献 , 共 分 5 节 . 7.2 节 主 要 介绍 复发 事件 数据 中 的 各 
种 非 参数 方法 ; 7.3 节 主 要 介绍 复发 事件 数据 中 的 各 种 条 件 回归 模型 及 其 估计 方法 ; 
7.4 节 主 要 介绍 复发 事件 数据 中 的 各 种 边际 半 参 数 模型 及 其 估计 方法 ; 7.5 节 主 要 
介绍 基于 事件 间隔 时 间 的 一 些 半 参数 方法 ; 7.6 节 主 要 介绍 最 近 进 展 和 潜在 的 研究 
方向 . 


7.2 复发 事件 中 的 非 参数 方法 


本 节 主 要 讨论 事件 间隔 时 间 的 分 布 函数 和 生存 函数 以 及 事件 均值 函数 的 非 参 
数 估 计 . 由 于 间隔 时 间 存 在 相依 删 失 , 因此 , 其 分 布 函 数 和 生存 函数 的 估计 是 比较 复 
杂 的 . 即使 事件 发 生 时 间 是 独立 删 失 的 (如 跟踪 丢失 或 人 为 删 失 ), 而 第 二 次 和 随后 
事件 的 间隔 时 间 仍 然 存在 相依 删 失 , 除非 假设 个 体 所 经 历 的 间隔 时 间 都 是 独立 的 ， 
但 在 许多 研究 中 这 个 假设 是 不 现实 的 . 例如 , 等 待 第 一 次 事件 发 生 的 时 间 越 长 , 则 
第 二 次 和 随后 事件 的 间隔 时 间 便 会 越 短 . 因此 , 如 果 间 隔 时 间 之 间 是 相关 的 , 则 第 
二 次 和 随后 事件 的 间隔 时 间 本 质 上 存在 着 一 个 相依 删 失 变量 , 从 而 平常 的 独立 删 失 
假设 不 再 成 立 . 下 面 讨 论 在 相依 删 失 机 制 下 的 一 些 非 参数 估计 方法 . 

7.2.1 “联合 分 布 函数 的 估计 

对 应 于 Te 的 删 失 时 间 记 为 Cy = Ci 一 到 1 (k= 1,---,K) HE Tio = 
0， 为 了 方便 起 见 , 只 考虑 K = 2 的 情形 .由 于 右 删 失 的 存在 , 观察 到 的 数据 为 
{Xi, Xia, Min, Aig} (i = 1, ,n), 其 中 Kir = Tie A Coe, Die = (Tie < Čik) = 
ITs < Ci)， 在 下 文中 , 省 略 下 标 i 的 随机 变量 和 函数 可 以 被 看 成 相应 于 任 一 个 
体 的 . 

(Tia, Tia) 的 联合 生存 函数 定义 为 S12(ti,t2) = P(Ti > ti, M > ta). 注意 到 


S12(t1, t2) = P(T > to\Ty > t1)P(T; > tı) 
= [J {1 — 442(5|T; > t1)}Sı(tı), 


St2 
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其 中 , J 表示 乘积 限 积分 , Ao(s|Ti > t1) 为 (QIT > ti) 的 累积 风险 函数 以 及 S(t) 
为 T 的 生存 函数 .Campbell 和 Féldes(1982) 给 出 了 Ao(s|Ti > ti) 的 一 个 估计 
如 下 : ‘i 
和 4izT( Xi > ti, Xo = 8) 
dA2(s|T, > tı) = =—__—______,, 

> (Xin > ti, Xi È s) 


其 中 , I(Ka > ti, Xi = s) 表示 lim I(Xa > ti, < Xiz < s +8). 当 对 某 些 k, Tix 


与 G 不 独立 时 ，Wang 和 Wells(1998) 证 明了 Siz(ti,t2) 和 S2(t2) = P(T2 > te) 
的 Campbell-Faldes 估计 是 不 相合 的 . 同样 , 对 于 其 他 一 些 二 元 生存 函数 的 估计 , 在 
相依 删 失 下 也 是 不 相合 的 , 其 中 , 包括 Dabrowska(1988), Prentice 和 Cai(1992), Lin 
和 Ying (1993), Tsai (1996), Tsai 和 Crowley(1998) 等 提出 的 估计 以 及 S2(t2) 的 
乘积 限 估 计 (Kaplan and Meier, 1958). 

鉴于 以 上 情况 , 通过 删 失 函数 逆 加 权 , Wang 和 Wells(1998) 提出 了 一 个 修正 估 
计 , 其 条 件 累积 风险 增 量 的 估计 为 


È bolla >t X Xia = s)/Gi(X. il +8) 


LA 


dAo(s\Ty > tı) = 


2 I(Xa > ti, Xi2 > s)/G1(Xi +8) | 
其 中 ， Git) = P(C > t), Gi (t) 是 G(t) 的 基于 {(Xa,1 = Aii), i = 1,--- sn} 的 
Kaplan-Meier 估计 , 从 而 这 个 修正 估计 为 


Syo(ti,t2) = [I {1 — dAo(s|Ti > t1)} Si (2). (7.2.1) 
由 此 可 以 得 到 Ty 的 边际 生存 函数 的 估计 为 52(t2) = S12(0, t2). 
Wang 和 Wells(1998) 证 明了 当 n 一 oo PY, S12(t1,t2) 依 概率 收敛 于 S12(ti,t2)， 
并 且 nl/2(S12(t1, t2) 一 S12(t1,t2)) 弱 收 敛 到 一 个 零 均 值 的 高 斯 过 程 . 由 于 其 渐 近 协 
方差 阵 形式 非常 复杂 , 很 多 学 者 建议 使 用 生存 数据 的 Bootstrap 方法 (Efron, 1981) 
来 给 出 可 信赖 的 标准 差 估计 . 
在 相依 删 失 下 , Lin 等 (1999) 提出 了 联合 分 布 函数 Fiz(ti,t2) = P(Ti < t, = 
te) 的 一 个 估计 , 其 中 , ti +t: < tc UR te = sup{t|P(C 2 t) > 0}. 他 们 从 
本 2(ti,t2) = H(t1,0) — H(t, t2) 的 关系 入 手 , 其 中 , A(t, t2) = P(T < ti, To > t2). 


如 果 没 有 删 失 , H(t, t2) 的 舍 计 为 w+ >7(Ta < ti, T > te). 由 于 删 失 的 原因 ， 
I(Ta < ty, Tig > t2) 是 不 能 被 观测 到 的 . 于 是 Lin 等 (1999) 用 一 个 可 以 观测 的 且 与 
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它 有 着 相同 期 望 的 量 来 代替 它 , 即 利用 BU (Xa < ti Xi > te)|Ta,Ti2] = (Ta < 
ti, Tio > t2)G(Ti + te) 可 得 估计 


S "(Xia <t1,Xi2>t 

H (ti t2) =n! 3 a e (7.2.2) 
其 中 , G(t) 是 G(t) 的 基于 {(Xi2,1 一 4i), i= 1,--- ,n} 的 Kaplan-Meier 估计 . 当 
n 一 oo AY, A(t, te) 关于 (ti, t2) 几乎 处 处 一 致 收敛 于 H(ti,t2), 并 且 ni/2(H(., ‘)- 
H(-,+)) 弱 收 敛 于 一 个 零 均值 的 高 斯 过 程 , 其 协 方差 函数 可 用 相应 的 经 验 量 来 估计 ， 
从 而 联合 分 布 函数 的 估计 为 F(ti,t2) = A(t1,0) 一 五 (t,t2)， 以 及 条 件 生 存 函 数 
Fy) (ta|t1) = P(T2 > talTi < t1) 的 估计 为 


Foy (ta|t1) = 1 — A(talti)/A (les). 


利用 H(t2lti) 的 性 质 可 得 到 bli(t2lt1) 的 一 致 强 相合 性 以 及 nl/2{ Fon (ta|t1) = 
Fzl1(t2lt1)} 弱 收 敛 到 一 个 零 均值 的 高 斯 过 程 . 
7.2.2 ”边际 生存 函数 的 估计 
Wang 和 Chiang(1999) 用 一 种 不 同 于 以 往 的 方法 研究 了 一 个 事件 间隔 时 间 的 
边际 生存 函数 的 估计 问题 . 他 们 把 第 一 次 事件 的 发 生 时 间作 为 跟踪 个 体 的 初始 时 
间 , 即 个 体 在 它们 的 第 一 次 事件 发 生 以 后 就 成 为 研究 观察 的 对 象 , 复发 时 间 测 量 从 
第 一 次 事件 发 生 的 时 间 开 始 . 沿用 本 章 已 定义 的 一 些 记号 , m 表示 第 i 个 个 体 被 
观察 到 的 事件 发 生 的 总 次 数 , 包括 标志 对 第 i 个 个 体 跟踪 开始 的 第 一 次 事件 , 并 定 
义 m? = mi — I(m; > 2). 
假设 事件 间隔 时 间 的 边际 生存 函数 都 是 一 样 的 , 记 为 S(t). 定义 删 失 时 间 的 一 
个 函数 a; = a(C;) > 0 作为 一 个 权重 . 例如 , 个 体 被 观察 时 间 越 长 , 权重 可 以 设 定 
得 越 大 . 又 定义 
H(t) = Elail(T > t)I(C; > t)), 
Fa(t) = ElaiT(Ti < t)I(Ci 之 Ti1)]. 
当 S(t) 绝对 连续 时 , 与 之 相对 应 的 累积 风险 函数 可 表示 为 


t Blail(Cs > ajall- S(s)} 
o Elai(G: >s) Sts) af Ha(s)”*dFa(s). 


Wang 和 Chiang(1999) 给 出 如 下 相应 估计 : 


anys aj Sy >, 


A(t) = 
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n m; 

a : - > ~ 

F(t) = nt em) 1, <8), 
i=1 ] 


m. 
i j=1 


WAU A(t) 和 RO 分 别 是 Hat) 和 Falt) 的 无 偏 估 计 . 相应 地 ，4( 的 估 
计 为 
A,(t) = f H,(s)~dF,(s). 
0 
由 此 利用 S(t) = exp{A(t)} 可 得 间隔 时 间 的 边际 生存 函数 S(t) 的 估计 为 
5,(t) = exp{—Aa(t)}. (7.2.3) 
X n-— oo H ai(i = 1,.… n) 有 界 时 , Wang 和 Chiang(1999) 证 明 n!/2{S,(t)—S(t)} 
在 [0,t*] 上 弱 收 敛 于 一 个 零 均值 的 高 斯 过 程 , 其 中 , t* = sup{t|S(t)G(t) > 0}. 
另外 ，Pena 等 (2001) 利用 和 矩 估计 方法 , 给 出 了 间隔 时 间 的 边际 生存 函数 的 
Kaplan-Meier 类 估计 , 以 及 间隔 时 间 的 累积 风险 函数 的 Nelson-Aalen 估计 . 这 些 估 
计 被 证 明 是 一 致 相合 的 并 弱 收 敛 到 一 个 均值 为 零 的 高 斯 过 程 . 同时 , 他 们 也 说 明了 
这 些 估 计 就 是 非 参数 极 大 似 然 估 计 . 
7.2.3 “事件 过 程 均值 函数 的 估计 
设 n 个 事件 过 程 Ni;(t)(i = 1…… ,n) 的 均值 函数 都 是 一 样 的 , 用 p(t) 表示 . 记 
第 i 个 个 体 的 可 观察 的 删 失 时 间 为 ci, 可 观察 的 事件 时 间 为 ti < … < tim,. 定义 


R(t) = > I(t < ci), 则 u(t) 的 Nelson-Aalen 估计 为 
i=l 


ânt) =} >， La = l (7.2.4) 


i=l j=1 


Nelson(1988) 以 及 Lawless 和 Nadeau(1995) 证 明了 An(t) 是 p(t) 的 相合 估计 , 并 
对 于 固定 的 0 < t < re, nint) — u(t)} 为 渐 近 正 态 的 . 

由 于 对 于 比较 大 的 t, R(t) 会 变 得 比较 小 , 使 得 Nelson-Aalen 估计 在 边界 点 附 
近 产 生 奇 异 行为 . 于 是 Maller 等 (2002) 利用 Kaplan-Meier 乘积 限 估计 方法 , 提出 
了 一 个 较 稳健 的 估计 . 记 djn(t) = > Iti < tA ci) 和 Rin(t) = do IE < ti; AG), 
以 及 i=1 i=] 

ye IE (ts10 < ti,m:) 十 ciỌ (j > tm 
MEO<t< 1, EM 
bnt)=1- JI (1-520), 


O<s<t Rin (s) 
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对 于 t > 1, 定义 Balt) = Fin (t) UW Bin) W(t) = P(T < t) 的 乘积 限 
估计 . 由 于 
u(t) = >> 5P(Ni(t) = 妃 =》PONG > 3) 


j21 j21 
以 及 P(N,(t) > j) = F(t). 于 是 Maller 等 (2002) 给 出 y(t) 的 估计 为 
PK 四 一》 F(t), t20, (7.2.5) 
j2l 
而 且 他 们 还 讨论 了 此 估计 的 有 限 性 和 一 致 相合 的 充 要 条 件 , 同时 证 明了 它 的 渐 近 正 
态 性 , 并 获得 了 渐 近 方差 的 相合 估计 . 


7.3 条件 回归 模型 


对 于 复发 事件 数据 的 分 析 , 常常 关心 的 是 协 变量 对 复发 事件 率 的 影响 , 在 文献 
中 已 有 几 种 估计 方法 , 包括 条 件 回 归 模 型 和 边际 回归 模型 . 这 些 方法 是 基于 对 强度 
函数 和 风险 率 函 数 进行 统计 建 模 分 析 的 . 本 节 主 要 介绍 一 些 条 件 回归 模型 , 这 些 模 
型 通常 是 复发 事件 数据 分 析 的 基础 . 


7.3.1 Andersen-Gill 比例 强度 模型 

在 生存 分 析 中 , 研究 协 变量 对 生存 概率 影响 , 最 常用 的 回归 模型 是 Cox 比例 风 
险 模型 (Cox, 1972). 在 这 个 模型 下 , 第 i 个 个 体 在 时 刻 t 的 风险 函数 假设 为 

Ai(t) = Aole) HO, 

其 中 , A(t) 为 未 知 的 基本 风险 函数 , Bo 是 pxl 维 的 未 知 回归 参数 向 量 . 根据 部 分 
似 然 方法 (Cox, 1975) 可 以 获得 未 知 参数 的 估计 , 其 大 样本 性 质 可 以 通过 计数 过 程 
LIR (Andersen and Gill, 1982) 或 经 验 过 程 理论 (Tsiatis, 1981) 得 到 . 

Andersen-Gill(AG) 模型 (Andersen and Gill, 1982) 是 Cox 比例 风险 模型 在 复 
发 事件 中 的 推广 , 即 给 定 协 变量 的 条 件 下 , 第 k 次 事件 的 强度 具有 下 列 形 式 : 


Mig(t) = Ao(t)e ZO, k =1,---,K, K <o. (7.3.1) 


在 AG 模型 中 , 其 风险 过 程 定义 为 Wk(t) = (Xie < t < Xir). 尽管 个 体 可 能 经 
历 多 次 事件 , 但 在 任何 给 定 的 时 间 , 假设 每 个 个 体 不 可 能 同时 发 生 两 个 或 两 个 以 上 
事件 , 也 就 是 说 , dNi;(t) 只 取 0 或 1. 参数 估计 仍然 可 以 由 部 分 似 然 方法 获得 . 记 
By 的 估计 为 BA, 则 BS 可 以 由 估计 方程 U4(B) = 0 重复 迭代 求解 获得 , 其 中 ， 


04(B)= 和/ (Zils) ~ ElsB))aNi(s) 
i=1 0 
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其 中 , E(s;B) = S™ (s; 8)/S (s; B), 


SOf p) =n SOJE Yale) Zile)? x ee 2 


i=l k=1 


以 及 对 任 一 向 量 z, z30 = 1, z31 = z, z8? = zzT. 累积 基本 风险 函数 A(t) = 
人 Ao(s)ds 的 Breslow-Aalen 估计 (Breslow, 1974) 为 
0 


t ~ 
Ao (t; 3%.) =n f dN (s)/S (8:85), 
0 


其 中 , dN.(s) = 》 dNi(s) 


i=1 
在 一 定 正则 条 件 下 , 4 n 一 co 时 , 可 以 证 明 a 存在 唯一 且 为 Bo 的 强 相合 估 
it, 同时 ni/2(B4 — Bo) 渐 近 服从 均值 为 零 且 协 方差 阵 为 AB)! 的 正 态 分 布 , 其 
中 , A(B) 为 An(B) = -8U4(B)/8BT 的 极限 . 另外 , 其 协 方差 阵 的 一 个 相合 估计 为 
Àn (Bn), 其 中 ， 


AnP =n Y [ {ae f ~ B(s, B)? } ao) 


B,(8) =n > cs [Zi(s) = E(s; B)| AM ;:(s; oy 
i=1 


其 中 , dM;(s;B) = dNi(s) — Yi(s)e?" 2) dAo(s; 8), 则 由 Lin 和 Wei(1989) 可 知 
渐 近 分 布 的 一 个 稳健 协 方 差 阵 为 允 (B0) = A(Bo)"B(Bo) A (Bo) 其 中 , B(B) 为 
Bn (B) 的 极限 , TLIC TERENAS A, 84) 7B, (BA) ABA)". 

在 AG 模型 中 , 由 于 Arlt) 除了 有 时 可 能 依赖 一 些 特 定 的 依 时 间 变 化 的 协 变 
量 外 (如 当前 时 间 之 前 所 发 生 的 事件 次 数 或 其 相关 的 函数 )， 是 假设 与 Ni(t) 独立 
的 , 因此 , 可 以 把 每 个 个 体 的 事件 过 程 看 成 是 有 着 独立 增 量 的 计数 过 程 , 即 非 齐 次 
Poisson 过 程 (Chiang, 1968). AG 模型 是 容易 解释 和 实施 的 比较 简单 的 模型 之 一 ， 
本 质 上 有 些 类 似 于 通过 Poisson 过 程 对 其 进行 数值 模拟 的 逐 段 指数 模型 . 事实 上 ， 
类 似 于 Laird 和 Olivier(1981) 对 删 失 数据 下 Cox 模型 的 近似 , AG 模型 也 可 以 由 
Poisson 回归 软件 精确 近似 . 

假设 AG 模型 是 正确 的 , 前 面 提 到 的 相合 性 和 渐 近 正 态 性 便 成 立 , 此 时 渐 近 协 
方差 阵 为 A(B0)-!, 而 不 是 三 明治 形式 . 但 是 独立 增 量 的 假设 过 于 苛刻 , 有 时 可 能 
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不 满足 . 当 独 立 增 量 假设 不 成 立时 , 过 去 的 事件 很 可 能 与 将 来 事件 具有 正 相 关 ， 
此 , A(Bo)-! 会 过 低估 计 方 差 , 但 此 时 用 稳健 方差 Albo) Bbo) AlB) 更 适合 
些 . 正如 Lin 和 Wei(1989) 所 讨论 的 那样 , 当 没 有 独立 增 量 结构 时 , 观察 到 的 数据 
很 有 可 能 不 满足 比例 强度 假设 , 从 而 也 很 难 给 出 B 的 极限 值 的 解释 . 但 不 管 怎样 ， 
当 模 型 近似 正确 时 , 即使 基本 的 假设 不 成 立 , BS 也 是 一 个 很 有 用 的 统计 量 . 在 实际 
中 , 真正 的 比例 强度 是 很 少 能 观察 到 的 . 

7.3.2 Prentice-Williams-Peterson 模型 


Prentice “ (1981) 首次 把 Cox 模型 推广 到 复发 事件 数据 的 情形 . 在 这 里 , 考虑 
两 类 实际 中 常用 的 Prentice-Williams-Peterson(PWP) 模型 . 具体 来 说 , 对 于 第 i 个 
个 体 , 在 .Ni(t) 条 件 下 , 第 次 事件 发 生 的 强度 函数 在 时 刻 t 具有 以 下 形式 : 


Air (t) = Yir(t) row (t)e* 2, (7.3.2) 


Air (t) = Yir (t)Aor(t — Ti pi) 2. (7.3.3) 


以 上 强度 函数 分 别 对 应 于 事件 发 生 时 间 和 间隔 时 间 . 本 质 上 , 这 样 的 方法 提供 了 一 
个 依赖 时 间 的 分 层 比例 强度 模型 ， 并 且 事 件 发 生 时 间 之 间 的 相依 性 体现 在 分 层 是 
由 先前 事件 发 生 次 数 来 决定 的 . 对 于 事件 发 生 时 间 模 型 , 风险 集 的 示 性 函数 与 AG 
模型 中 定义 的 相同 , 即 Vin (t) = TO < t < Xx). 对 间隔 时 间 模 型 而 言 , 定义 
Yin(t) = I(Xik > Xir- +t) 并 用 Zin (Xi na +t) 代替 Zin(t). 不 像 AG 方法 , 对 
于 PWP 模型 , 回归 参数 和 基本 强度 函数 被 允许 与 事件 有 关 . 因此 , 在 使 用 PWP 模 
型 时 , AD BMA Zielt), 使 得 能 准确 地 刻画 M(t) 对 Arlt) 的 影响 . PWP 
模型 中 的 参数 可 以 由 部 分 似 然 方法 来 估计 . 对 于 模型 (7.3.2), pe x 1 维 回 归 参 数 By 
的 估计 可 以 由 估计 方程 U7? (Bi,) = 0 的 解 获得 , 其 中 , IF k=l, K, 


Un (Bx) = >， za - ELT (s; 8,)}ANix(s), (7.3.4) 
i=l 
EFT(s; Bi) = QL? (s; Bx) /QO(s;B,); 
QP (s; Bp) = n7! x So Yar (8) Zin(s) "SP Zat) 
t=1 
以 及 Nix (t) = (Tik < t, Aix = 1). 对 于 PWP 模型 (7.3.3), 部 分 似 然 估计 为 估计 方 
程 U?S(B,) = 0 的 解 , 其 中 ， 


U (8) = > f {Zin (8 + Tik-1) — ERS (8s; Pp) }ANix(s), (7.3.5) 
i=l 
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其 中 ， 
EES (s; Bp) = RL (s; By)/RO (s; Bx); 


RE! (9; Bp) = n7? x 》 Vins) Zik (8 + Tie—1) ort Zi Ot Re) 
i=1 
以 及 Nirt) =I (Ñk < t, Aik = 1). 

EWA PWP 模型 (7.3.2) 和 (7.3.3) 时 , 一 般 选 择 K, 使 得 数据 集 有 充分 多 的 
事件 被 观察 到 , 模型 的 条 件 性 质 给 参数 解释 带 来 了 困难 . 在 分 析 中 , 基于 限制 风险 
集 的 主要 难点 在 于 “完全 随机 缺失 ”的 假设 不 成 立 了 , 因为 在 对 第 k+1 次 事件 强度 
函数 的 分 析 中 , 排除 了 那些 没有 经 历 第 k 次 事件 的 个 体 . 同时 , 基于 非 限 制 风险 集 
的 分 析 又 因为 其 延迟 效果 而 受到 批评 . 由 于 第 上 + 1 个 风险 区 间 对 应 的 事件 发 生 时 
间 包 含 了 第 1,… ,个 风险 区 间 对 应 的 事件 发 生 时 间 , 即使 每 个 个 体 的 事件 间隔 时 
间 是 不 相关 的 , 事件 发 生 的 时 间 也 会 高 度 相 关 (Lipschutz and Snapinn, 1997). 时 间 
尺度 和 风险 集 构建 方式 的 选择 取决 于 研究 的 目的 . 在 PWP 模型 中 , 类 似 Andersen 
和 Gill(1982) 的 方法 , 假设 关于 M) 的 信息 全 部 可 以 用 协 变量 来 刻画 . 当 这 个 假 
设 不 成 立时 , 可 用 稳健 方差 估计 来 估计 方差 . 


7.3.3 ”复发 时 间 风 险 模型 


关于 第 ; 次 事件 的 发 生 时 间 所 对 应 的 风险 函数 A(t), Chang 和 Wang(1999) 
提出 了 下 列 半 参数 风险 模型 : 


Nig (t) = Aoz (t — Tigre Za OF Za, (7.3.6) 


其 中 , Xo;(-) 为 特定 事件 的 未 知 非 负 函 数 , Bo 是 感 兴 趣 的 p x 1 HE “BHI” BR, 4, 
是 g x 1 #5 j 有 关 的 参数 , 其 是 否 是 感 兴趣 的 参数 视 具 体 情况 而 定 . 例如 , 在 精 
神 病 的 研究 中 , 性 别 和 婚姻 状况 对 个 体 的 不 同 阶段 可 能 有 相同 的 影响 效果 , 但 疾病 
发 作 的 年 龄 对 不 同 阶段 有 着 不 同 程度 的 影响 效果 . 

当 By = 0 时 , 模型 (7.3.6) 即 为 Prentice 等 (1981) 所 提出 的 间隔 时 间 模 型 
(7.3.2). 当主 要 感 兴趣 的 是 不 同 阶段 的 协 变量 影响 程度 的 变化 模式 时 , 可 以 采用 这 
个 模型 . 例如 , 药物 的 使 用 可 能 有 效 减 小 前 两 次 或 前 三 次 感染 的 风险 , 但 对 接 下 去 
的 阶段 可 能 并 没什么 影响 . 由 于 基准 的 群体 随 着 阶段 而 改变 , 使 得 随 阶 段 变 化 而 持 
续 减 小 的 协 变量 效果 的 精确 解释 变 得 困难 , 即 当 分 析 第 7 + 1 次 感染 时 间 时 , 被 研 
究 的 个 体 必 须 是 那些 经 历 了 第 ; 次 感染 的 个 体 , 并 把 第 j 次 感染 时 间 当 成 起 点 时 
间 , 从 而 由 于 基准 队列 随 阶段 变化 , 使 得 很 难 让 1,~Y。,…… 的 趋势 一 致 . 尽管 在 解释 
中 有 如 此 一 些 困难 , 但 作为 描述 的 目的 , 仍然 将 随 阶段 变化 的 协 变 量 效果 模式 作为 
感 兴趣 的 问题 来 研究 . 


7.4 边际 半 参 数 模型 - 201 - 


dag (t) = Aoz (t — Ti,g—1)e8 28. 


这 个 模型 与 Prentice 等 (1981) 的 模型 (7.3.3) 类 似 , 只 是 其 回归 参数 Bu 是 共同 的 ， 
不 依赖 于 具体 事件 . Chang 和 Hsiung(1994) 以 及 Chang(1995) 分 别 独立 地 研究 过 
此 模型 . 若 所 有 协 变量 效果 都 假设 是 与 事件 无 关 的 常数 , 或 者 虽然 协 变量 效果 随时 
间 变 化 , 但 感 兴趣 的 是 其 平均 效果 时 , 就 可 以 使 用 此 模型 来 分 析 . 

Chang 和 Wang(1999) 提出 用 剖面 似 然 方 法 (profile likelihood) 来 估计 Bo 和 
Ti = 1,2,---). Chang 和 Wang(1999) 的 方法 与 以 前 一 些 学 者 (Prentice, et al., 
1981) 所 提出 的 方法 的 主要 区 别 在 于 分 析 时 使 用 了 所 有 的 数据 , 而 以 前 的 方法 对 个 
体 被 考虑 的 复发 事件 数 有 所 限制 . Neyman 和 Scott(1948) 指出 当 讨厌 参数 个 数 随 
n 一 oo 而 增加 时 极 大 似 然 估计 是 不 相合 的 , 但 利用 计数 过 程 (Andersen, et al., 1993) 
APLE (Fleming and Harrington, 1991), Chang 和 Wang(1999) 证 明了 在 一 定 正 
则 条 件 下 , 即使 随 阶段 变化 的 参数 不 能 被 相合 估计 , 回归 参数 Bo 的 估计 也 是 相合 
和 渐 近 正 态 的 . 
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在 复发 事件 数据 下 , 条 件 回 归 模 型 的 建 模 需要 考虑 整个 复发 事件 过 程 , 而 且 数 
学 处 理 上 有 时 也 比较 复杂 由 于 事件 的 比率 或 均值 函数 比 强度 函数 更 具有 直观 的 
解释 意义 , 一 些 作 者 已 经 对 比率 或 均值 函数 进行 了 直接 建 模 , 从 而 产生 了 一 些 边 际 


7.4.1 Wei-Lin-Weissfeld 边际 风险 模型 


当 对 个 体内 部 相依 结构 的 假设 不 正确 时 , AG 模型 和 PWP 模型 都 缺乏 稳健 性 . 
由 此 , Wei 等 (1989) 提出 对 边际 风险 进行 建 模 , 而 不 再 对 Ni(t) 条 件 下 的 强度 函数 
建 模 . 他 们 利用 Cox 形式 的 风险 函数 对 第 个 事件 时 间 的 边际 分 布 进行 建 模 , 从 
而 产生 了 下 列 Wei-Lin-Weissfeld(WLW) 边际 风险 模型 , 即 第 个 事件 时 间 的 边际 
风险 函数 为 

和 ik(t) = Aok (t) E 24), k=1,---,K. . 


关于 第 个 事件 的 部 分 似 然 函数 为 


Aik 
Le Dix (Xik) 
PL;(B;) = I] [| . 


n : 
i=l Yin (Xin )ePe Zir (ix) 
= 


了 
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相对 应 的 得 分 函数 为 
Uk:n(Bk) = 57 B, 8 PL,(G;,) = D [ als — Ex (s; B,)}dNix(s), (7.4.1) 


其 中 , Aik = I(Tix < Ci), Nix(t) = I(Xir < t, Aik = 1), Yie(t) = (Xie > t) WR 


Ex(s; Br) = SP (s; By) /SO(s; Bx) 


n 
S19 (5; Pr) =n Yin s)Zin(s) AE, = 0,1,2. 


i=1 


第 k 次 事件 时 间 的 累积 基本 风险 函数 的 估计 为 


t ~ 
Aor (ti Ben) =n! f dN x(s)/5 (s; Bun)» (7.4.2) 


其 中 , dN.k(s) = Do dNix(s). 记 Xi = (Xi Xie)", Ai = (4a, , Aik)", 


i=1 
Z(t) = (Za(t)™,--- , Zix(t)™)™. Wei 等 (1989) 给 出 的 正则 条 件 之 一 为 (ZC), Xi, 
A;) 是 独立 同 分 布 的 . 当 边际 模型 成 立时 , 上 述 得 分 函数 的 解 Bi.,, 是 Bi 的 相合 估 
tr. H n > co 时 ， ma/2(Bkn - Bo) 4 Np(Opx1, Ak (Gx)? Br(B,) An (Gx) *): 其 中 ， 
4k(Bk) 和 Bi(B,) 分 别 为 Akn(Bikn) 和 Brn (rn) 的 极限 ， 


p SPB) [586p 
Àrn(Br) =n = nA Si Êk) | Y ANa), 


S(s; Bx) SO (s; Bx) 


pi n T a @2 
Bune) =D) [ Zal) — Bels BAM als] ， 
i=1 Y0 


dM ix(s; By) = dNir(s) — Yir (s)e* 2" dAox(s; Bp). 


不 管 个 体内 部 的 相关 结构 是 否 存在 , 上 面 关 于 B ES EE. 也 
就 是 说 , 类 似 于 Liang 和 Zeger(1986) 对 于 未 删 失 纵向 数据 的 分 析 方 法 , 在 工作 独 
立 假设 下 (关于 同 个 体 的 事件 ), 边际 模型 参数 估计 是 合适 的 , 而 且 个 体内 部 的 相关 
性 由 稳健 方差 估计 来 调整 . 另外 , 如 果 边 际 模型 正确 , 并 且 每 个 个 体 发 生 的 事件 之 
间 真 的 不 相关 时 , 则 4k:n(Bkn) 与 Brn (Brn) 是 渐 近 等 价 的 . 

上 述 公 式 都 是 与 特定 事件 回归 参数 有 关 , 并 允许 用 后 续 事 件 的 发 生来 检测 效果 
趋势 . 当 Zi(s) = Zi(s)(k =1,---,K) 时 , 可 以 用 一 个 有 着 共同 回归 参数 的 模型 来 
估计 协 变量 的 平均 效果 , 也 就 是 Bi = By (k=1,---, K) 在 实际 应 用 中 , SADT 
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体 经 历 事件 发 生 的 最 大 次 数 时 , 使 得 Brn 不 稳定 或 者 其 渐 近 近似 不 合理 , 因此 , 一 
些 特定 的 分 层 需要 合并 在 一 起 . 

很 多 学 者 使 用 真实 数据 或 通过 模拟 来 比较 AG 方法 、PWP 方法 和 WLW 方 
法 (Lin, 1994; Gao and Zhou, 1997; Clayton, 1994; Therneau and Hamilton, 1997; 
Wei and Glidden, 1997). 众所周知 , 用 这 些 模 型 去 拟 合 相 同 的 数据 集会 得 到 不 同 的 
结果 . 这 是 毫 不 奇怪 的 , 因为 往往 不 同 的 模型 所 要 解决 的 问题 是 不 一 样 的 . WEW 方 
法 及 其 推广 (Wei, et al., 1990; Lee, et al., 1992; Liang, et al., 1993; Cai and Prentice, 
1995, 1997) 是 稳健 的 , 而 且 有 很 好 的 理论 . 在 对 总 的 平均 协 变量 效果 进行 推断 时 ， 
这 些 方法 被 认为 是 最 好 的 , 其 不 足 之 处 在 于 它们 对 于 失效 时 间 的 内 部 关系 没有 给 出 
任何 信息 . 

在 文献 上 , 对 于 WLW 方法 在 原则 上 是 否 适用 于 复发 事件 数据 存在 许多 争论 . 
当 Wei 等 (1989) 提出 此 方法 时 , 他 们 在 相同 框架 下 研究 了 以 下 两 种 情形 : © 成 组 
个 体 (clustered subjects) 且 每 个 个 体 经 历 的 事件 数 小 于 或 等 于 1; @ 独立 个 体 且 每 
个 个 体 经 历 的 事件 数 可 能 大 于 1. 在 理论 上 , WLW 方法 用 于 这 两 种 情形 都 是 有 效 
的 . 过 去 , 对 于 分 析 复 发 事件 数据 . WLW 方法 经 常 被 使 用 也 为 很 多 学 者 强烈 推荐 
(Lin, 1994; Therneau and Hamilton, 1997; Wei and Glidden, 1997; Barai and Teoh, 
1997; Kelly and Lim, 2000), 但 同时 WLW 方法 关于 回归 参数 估计 的 解释 也 为 一 些 
人 所 质疑 和 批判 ,因为 At) 是 边际 风险 , 所 以 个 体 在 经 历 第 k 次 事件 之 前 就 可 
能 处 于 第 kk 十 1 次 事件 的 风险 中 . 特定 事件 的 风险 函数 可 能 是 内 部 相依 的 , 即 如 果 


t 
Air (t) = / Aik(s)ds 的 观察 值 较 小 , 则 Aisi (t) 的 观察 值 也 应 该 小 , 这 是 因为 由 第 
0 


k 次 事件 必须 发 生 在 第 +1 次 事件 之 前 以 及 生存 函数 与 风险 函数 的 关系 可 以 得 到 
e Aiki) > e-hiktt) .一些 作者 , 如 Kelly 和 Lim(2000), 宣称 WLW 方法 在 前 面 所 
描述 的 延迟 效果 下 过 高 地 估计 了 回归 系数 . Cook 和 Lawless(1997a) 评论 在 第 大 次 
事件 发 生 之 前 就 定义 个 体 处 于 第 上 +1 次 风险 中 在 逻辑 上 是 不 合理 的 , 这 自然 引发 
了 WLW 模型 的 自 相 矛盾 ， 

另外 , Boher 和 Cook(2006) 给 出 了 AG 比例 强度 模型 、PWP 模型 和 Wei-Lin- 
Weissfeld 边际 风险 模型 中 参数 估计 的 稳健 方差 估计 , 进而 讨论 了 模型 参数 的 稳健 
检验 . Ebrahimi(2006) 针对 WLW 边际 风险 模型 , 提出 了 事件 时 间 的 联合 参数 模型 ， 
并 具体 给 出 了 几 个 参数 模型 . 


7.4.2 Pepe 和 Cai 比率 模型 


Pepe 和 Cai(1993) 提出 了 一 种 介 于 条 件 强度 和 边际 风险 模型 之 间 的 方法 . 他 
们 建议 对 比率 函数 {rii(t),7i2(t),…} 进行 建 模 , 其 中 , rin (t) 表示 在 时 刻 处 于 风 
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险 中 的 已 经 经 历 了 第 k 一 1 次 事件 发 生 的 个 体 第 k 次 事件 的 比率 , 即 
rik( = lim (P{t < Tis < t + Tik-1 < bt < Tik} /8)- 


类 似 于 边际 方法 , 每 个 个 体 事件 发 生 时 间 的 内 部 相关 性 也 没有 被 体现 出 来 . 如 果 不 
考虑 事件 时 间 的 相关 性 , 函数 rn (t) 经 常 是 感 兴趣 的 研究 对 象 . 不 同 于 WLW 边际 
风险 函数 Vin (t)|k = 1,2,---}, 比率 函数 {rin (tk = 1,2,---} 是 基于 已 经 经 历 了 
k 一 1 次 事件 的 条 件 下 的 , 这 对 复发 事件 研究 来 说 是 一 个 更 直观 的 途径 . 另外 , 不 像 
a(t), 和 i2(t),… 之 间 预 先 具有 数值 上 的 关联 , ri (t) 7i2(t),… 彼此 之 间 没 有 内 在 联 
系 . 因此 , 每 个 条 件 比率 可 以 被 看 成 是 数据 集中 不 同 部 分 的 总 结 . Pepe 和 Cai(1993) 
用 Cox 形式 对 每 个 条 件 比 率 进行 建 模 ， 


rin (t) = rox (te, 
其 中 , {ror(t)|k = 1,2,…} 是 任意 非 负 基本 比率 函数 . 基本 比率 函数 的 矩 估 计 为 
For (t; Buin) = nldN.k(t)/ SK (t; Barns 


其 中 ， Bin 为 Bi 的 一 个 估计 , dN.k(t) = >》 dNix(t), Yixr(t) = I(Xik > t, Xijn—-1 < t) 
以 及 本 
S(O) (t; Brn) oe -1 ny Vix (t)eBr: nZi(t) 


i=1 
以 上 所 有 表达 式 都 与 式 (7.4.2) 中 对 应 量 有 着 相同 的 形式 , 只 是 Yalt) 有 所 修改 . 
Bam 可 由 下 列 估 计 函 数 的 解 获 得 : 


U*(B,) = D Zi(sHdNir(s) — Yik(s)Tor (t; Bi )eBr Z (s)qs}. (7.4.3) 


i Brin 是 Bk 的 相合 估计 , 并 具有 渐 近 正 态 性 . 
7.4.3 ”比例 均值 或 比率 模型 


对 于 复发 事件 数据 , 尤其 对 非 统 计 学 家 来 说 , 事件 发 生 的 平均 值 往往 是 个 更 好 
解释 的 量 , 而 且 也 是 研究 者 直接 感 兴趣 的 . 基于 以 上 原因 , 下 面 介绍 一 个 比例 均值 
或 比率 模型 . 

尽管 没有 给 予 其 具体 的 名 称 , Lawless 和 Nadeau(1995) 最 先 提 出 边际 均值 
或 比率 模型 的 . 他 们 最 初 考虑 的 是 离散 时 间 情 形 , 但 对 连续 时 间 情 形 没 有 给 出 大 样 
本 结果 . 他 们 考虑 的 半 参 数 和 参数 模型 分 别 如 下 : 


E[AN:i(t)] = mo(t)g(t; Bo, Z:(t)), 
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E[AN:;(t)] = mo(t; a) g(t; Bo, Zi(t)), 


其 中 , molt) 是 未 知 非 负 函数 , mo(t;a) 是 已 知 函数 , a 是 未 知 参数 , g(-) > 0 是 预先 
已 知 的 联系 函数 . 

Lin 等 (2000) 对 边际 均值 或 比率 模型 进行 了 严密 的 公式 化 , 并 给 出 了 连续 时 间 
情形 的 推断 方法 ， 他 们 提出 了 一 个 具有 Cox 类 联系 函数 的 半 参 连续 时 间 模 型 ， 并 
指出 当 对 稳健 性 和 可 解释 性 感 兴趣 时 , 这 种 模型 可 以 作为 强度 模型 的 一 个 替代 . 例 
如 , 前 面 描述 的 AG 模型 , Ai(s) = Ao(s)e% 2), 主要 含有 下 面 两 个 基本 部 分 : 

(1) BldNi(t)|Fi(t)] = EldN:(t)}2:(t)); 

(2) EldNi(t)|2:(t)] = Xe(t)e@e 4 dt, 

其 中 , F(t) = of{Yi(s), Zils), Ni(s 一 )|s € [0,t]}, of -} 表示 o 代数 . 在 假设 (1) F, 
五 (t) 的 效果 完全 为 Zit) 所 刻画 . 为 了 避免 这 个 较 强 的 且 不 能 验证 的 假设 , 一 般 去 
掉 假设 (1), 仅 用 (2) 定义 模型 . 具体 地 说 , Lin 等 (2000) 提出 的 比例 比率 模型 具有 
如 下 形式 : 

E[dNi(t)|Zi(t)| = dilt) = eB ZO dyolt), (7.4.4) 


其 中 , polt) 是 未 知 的 基本 均值 函数 . 注意 尽管 dyi(t) 始终 都 是 比率 函数 , 但 只 有 当 
t 

Zi) 是 外 生变 量 时 , p(t) = / dji(s) 才 表 示 均 值 函 数 . 如 果 Z) 中 含有 依 时 间 
D 


变化 的 内 生 协 变量 , 则 yi(t) 只 能 被 解释 为 累积 比率 函数 . 若 所 有 协 变量 都 与 时 间 
独立 , 则 对 式 (7.4.4) 两 边 积分 就 可 获得 下 列 比例 均值 模型 : 


E[Ni(t)|Zi] = €° Z: polt). (7.4.5) 


WLW 边际 风险 模型 (Wei, et al, 1989) 和 边际 均值 或 比率 模型 (Lin, et al., 
2000) 之 间 是 平行 的 . 类 似 于 Liang 和 Zeger(1986) 对 纵向 数据 的 分 析 方 法 , 在 这 两 
种 模型 下 , Bn 的 估计 方程 都 忽略 了 个 体内 部 的 相关 性 . 一 个 比例 强度 模型 是 一 个 
比例 比率 模型 , 但 反之 不 然 . 例如 , 考虑 一 个 典型 的 脆弱 模型 


Ài (tini) = Niào (tJe? Zi e. 


其 中 , n 是 不 能 观察 的 表示 异 质 性 的 均值 为 1 的 随机 变量 且 与 Z: 独立 . 4 m 服 
从 除了 正 稳定 分 布 (如 伽 马 或 逆 高 斯 分 布 ) 之 外 的 任何 分 布 时 , 比例 比率 模型 成 立 ， 
而 比例 强度 模型 不 成 立 . 

Lin 等 (2000) 指出 By 的 估计 为 方程 U,(B;7) = 0 的 解 B, 其 中 ， 


UB: =F f {Zi(s) — E(s; B)}dNi(s) (7.4.6) 
4=1 
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以 及 E(s;B) = S™ (s; B)/S(s; B), Yi(s) = (Ci > s) 和 


n 
SOs; B) =n YY; (8) Zi(8)9" x eH), 


i=1 


基本 均值 函数 olt) 的 估计 为 Breslow 类 估计 folt; Bn), 其 中 ， 


fio(t; 8) = n7} i dN.(s)/S(s; B) 


WR N.(s) = >> Ni(s). 
i=l 


B, 的 渐 近 分 布 可 以 从 Un(Bo) = Un(Bo;7) 的 渐 近 分 布 得 到 .经 过 简单 计算 
可 得 as 
Un(Boit) = JS | (Zils) ~ Els: Bo)}4Mi(s: Bp) 
i=l 


其 中 , dMi(s; B) = dNi(s) — Yi(s)e8 2) dyo(s). HERNIE (AG 模型) 成 
立时 , 易 知 Mi(t; Bo) = T dMi(s; Bo) 是 关于 o{ Ni(s 一 ), Zi(s)|s € [0, 相 } FOR. 于 
0 


是 Un(Bu) KAAT ea PRP AR PRE HE (Fleming and Harrington, 1991) 获 
得 . 当 比 例 均 值 模型 成 立 (比例 强度 模型 不 成 立 ) 时 , 多 元 中 心 极限 定理 可 用 来 推 
导 Ui,(Bo) 的 极限 分 布 . 更 一 般 地 , Lin 等 (2000) 证 明了 {n PU nB: t)|t € [0,7]} 
弱 收 敛 到 一 个 零 均 值 的 高 斯 过 程 , 其 在 时 刻 s 与 时 刻 t 的 协 方差 函数 为 B{fB0; s,t), 
其 中 , 对 于 0 <s,t<7, 


B(G;s,t)=E | ji ' {Z1 (u)— E(u; 8)}dM: (u: B) x f (Zi(v) - Elv; BAM: (e; )| ; 


于 是 在 比例 均值 模型 下 , n1/?(B,, — Bo) > Np(0px1, A(Bo)-1B(Bo)A(Bo)-!), 其 中 ， 
A(Bo) 是 An(Bo) = -8Un(Bo)/86T 的 极限 且 B(B) = B(B; 7,7). 

注意 到 关于 强度 和 风险 的 讨论 都 需要 计数 过 程 满足 限制 条 件 dNi(s) = 0 或 1. 
在 生物 医学 研究 中 , 一 些 感 兴趣 的 事件 过 程 可 能 并 不 满足 这 个 约束 (如 保健 费用 )， 
从 而 风险 和 强度 模型 在 这 种 情形 下 就 不 起 作用 了 . 但 是 , 边际 均值 模型 可 以 适用 于 
增 量 为 任何 正常 数 的 过 程 . 


7.4.4 加 性 比率 模型 


在 实际 应 用 中 , 研究 的 个 体 往往 具有 几 种 协 变量 的 影响 , 有 些 协 变量 的 影响 是 
乘 性 的 , 另外 一 些 协 变量 的 影响 是 加 性 的 , 或 者 某 些 变量 的 影响 既是 加 性 的 又 是 乘 
性 的 .比例 比率 模型 中 的 协 变量 的 影响 是 乘 性 的 ， 若 对 应 于 协 变量 的 影响 是 加 性 
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的 , 就 是 下 面 介 绍 的 加 性 比率 模型 . 比例 比率 模型 和 加 性 比率 模型 是 复发 事件 数据 
研究 中 的 两 个 基本 模型 . 
Schaubel 等 (2006) 提出 的 加 性 比率 模型 具有 如 下 形式 : 


E[dN,(t)|Zi(t)] = duo(t) + 09 Zi(t)dt, (7.4.7) 
其 中 , Oy 是 px) 维 的 未 知 回归 系数 , dult) 是 未 知 的 基本 比率 函数 . 定义 
Mi(t:0) = Ni(t) - | Y;(s){dyio(s) + 87 Z;(s)ds}, 


其 中 , ¥i(s) = 1(C; > s). ARM Mi(t; 00) 是 均值 为 零 的 随机 过 程 . 因此 , 利用 估计 方 
程 的 方法 , Schaubel 等 (2006) 建议 用 下 面 两 个 方程 的 解 来 估计 yo(t) 和 8o: 


n pft 
> Yi(s)dMi(s;0) = 0, 


= Yi(s)Z;(s)dM;(s; 0) = 0. 
给 定 9, 解 第 一 个 方程 得 


jio(t; 0) =n! if Yi(s){dNi(s) — 07 Z;(s)ds}/z(s), 


其 中 , #(s) =n) 》 Yi(s). 把 Bolt; 0) 代入 第 二 个 方程 并 解 之 , 就 得 到 Oo 的 估计 为 


i=l 
n T -1 n T 
= sf Yi(s){Zi(s) 一 ae baa {Zi(s) — Z(s)}dNi(s)] , 


其 中 , Z(s) =n" Koa, (s)/f(s). 于 是 基本 均值 函数 polt) 的 估计 为 folt; On). 


在 一 定 正则 条 件 下 ， “4 n 一 oo IN, Schaubel 等 (2006) 利用 经 验 过 程 理 论 和 多 
元 中 心 极限 定理 证 明了 6,。 几 乎 处 处 收敛 到 go, 并 且 ml/2(6,, — Oo) 渐 近 服从 均值 
为 零 、 协 方差 阵 为 ABA 的 正 态 分 布 , 其 中 ， 


A=E | [ YNZ- z(s)}as| 


@2 


B = E | [ (2s) -saeeo] 
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z(s) 是 Z(s) 的 极限 . 协 方差 阵 ABA WHAT A BA, 其 中 ， 
A=n" s f "¥i(s){Zi(s) — Z(8)}®?ds, 
i=1 Y0 


~ 


B=n-! > [[ iz 一 2(s)}ANi(s:9.)| a 


以 及 dMi(s;@) = dNi(s) — Y;(s)[dfo(s;0) + 6T Z;(s)ds}. 同样 ， 他 们 也 证 明了 
nl/2{fio(t; On) 一 jolt)} 弱 收 敛 到 一 个 均值 为 零 的 高 斯 过 程 ， 其 在 (s,t) 处 的 协 方 
差 函 数 为 I'(s,t) = E{ 6;(s) 5$;(t)}, HP, 
i(t) = ;(u))~ td My (u; 80) 一 owe fiz — z(u)}dMi(u; Ao). 
a(t) = | (EYD tamu; 60) — f eZ i(u; 80 
7.4.5 ”加 速 回归 模型 


在 生存 分 析 中 , 加 速 失效 时 间 模 型 是 Cox 比例 风险 模型 的 重要 替代 模型 之 一 . 
在 复发 事件 数据 下 , 对 应 于 加 速 失效 时 间 模 型 , 就 是 Lin 等 (1998) 提出 的 加 速 失效 
时 间 均 值 模型 , 具有 如 下 形式 : 


E[N: (t) Zi] = po (te? 2:), (7.4.8) 


其 中 , wo 人 tb) 是 未 知 的 连续 函数 , Z; 是 与 时 间 独 立 的 协 变量 , 协 变量 的 效果 是 通过 
因子 e832: 来 改变 事件 均值 函数 的 时 间 尺 度 , 时 间 以 常数 加 速 或 减速 取决 于 B82; 
的 符号 . e832: 称 为 加 速 因子 . 记 N?(t; B) = Ni(te-8 2:), MUSK (7.4.8) 等 价 于 


E[N} (t; Bo)] = Holt). (7.4.9) 
定义 G(B) = Ce? 2:, Yi(t;B) = 1(Ci(B) > t) 以 及 
M,(t;B) = f Y; (s; )d[N3'(s; B) — po(s)]. 


由 式 (7.4.8) 知 Mi(t; 90) 是 均值 为 零 的 随机 过 程 . 由 部 分 似 然 得 分 函数 和 加 权 秩 估 
计 方 法 , Lin 等 (1998) 建议 用 下 列 函 数 来 估计 Bo: 


u(a)= >> f © Q(t; PHZ: ~ Z(t; B)}Vi(t; BAN? (t; 8), 
i=l 
其 中 , Q(t; 8) 为 一 个 已 知 的 权 函 数 以 及 
5 Vit; BZ: 


Z(t; 8) = =.—_—_. 
2» Yit p) 
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当 Q(t; B) = 1 时 , U(B) 称 为 log-rank 估计 函数 ; 当 Q(t; 8) = n-!》 Vi(t; B) 时 ， 
i=1 


U(B) 称 为 Gehan 估计 函数 . 由 于 U(B) 是 关于 B 的 跳跃 函数 , 所 以 Be 的 估计 B 
定义 为 U(B) 的 零 相 交 , 即 

U(8—)U(B+) < 0, 
或 者 是 使 ||U(B) 达到 最 小 的 解 , 其 中 , oll = (wtu). 已 经 有 许多 方法 可 以 来 求 
解 这 个 方程 , 如 栅 格 搜索 算法 、 二 分 算法 和 模拟 退火 算法 (Lin and Geyer, 1992). 当 
获得 B 后 , 则 jo(t) 的 估计 为 下 列 Nelson-Aalen 类 估计 : 


n. ft ¥;(s; B)AN}(s; B) 
olt;B) = | =. 
> L ¥i(si8) 


在 一 定 正则 条 件 下 , 24 n > œ BY, Lin 等 (1998) 证 明了 B 几乎 处 处 收敛 
到 Go, HE ni2(B — Bo) 渐 近 服从 均值 为 零 的 正 态 分 布 . 同样 ， 他 们 也 证 明了 
n'/2 {fig (t; B) — po (t)} 弱 收 剑 到 一 个 均值 为 零 的 高 斯 过 程 . 

对 于 比率 函数 , Ghosh(2004) 提出 了 下 列 加 速 比 率 回归 模型 : 


E[ldNi(t)|2i] = dug (te? Z"). (7.4.10) 
此 时 ， 

E[N? (t;Bo)] = polt) P? Z, 
TR M(t: 80) = f “Yi(s; Bo)d[N*(s; Bp) —mo(s)e-93 Z JESSEN EE BE NEEE. 由 
估计 方程 理论 , Ghosh(2004) 提议 用 下 列 估 计 函 数 来 估计 Bo: 


U) =X / opt- ZU BIYE BITEN; P). 


同样 , By 的 估计 语 定义 为 U*(B) 的 零 相 交 , 或 者 是 使 IU*(B) 达到 最 小 的 解 . 给 
定 BOM, yo(t) 的 估计 为 下 列 Aalen-Breslow 类 估计 : 


Ars we ft Yi(s; B) ZdN7(s; p) 

fig(t; 8 )= > a a 
i=1 j > Yi(s; 8 ) 

而 且 Ghosh(2004) 也 证 明了 语 ” 几 乎 处 处 收敛 到 Bo, 并 且 ni/2(B” — By) 渐 近 服从 

均值 为 零 的 正 态 分 布 , 以 及 n/t: 8") — pyo(t)} 弱 收 敛 到 一 个 均值 为 零 的 高 斯 

过 程 . 
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另外 , Sun 和 Su(2008) 提出 了 一 般 的 加 速 均值 回归 模型 , 它 包 含 了 前 面 讨论 的 
加 速 失效 时 间 均 值 模型 (Lin, et al., 1998)、 比 例 均值 或 比率 模型 (Lin, et al., 2000)、 
加 速 比率 回归 模型 (Ghosh, 2004) 等 . 在 这 个 一 般 模 型 中 , 协 变量 的 效果 被 识别 成 
两 个 不 同 的 部 分 , 分 别称 为 均值 过 程 的 时 间 尺 度 效 应 和 均值 比率 效应 , 而 且 这 个 新 
模型 在 复发 数据 建 模 中 具有 更 多 的 灵活 性 , 可 能 得 到 对 个 体 生存 过 程 更 加 可 靠 的 预 
测 . 同时 这 种 包含 其 他 模型 的 嵌 套 结构 , 使 得 该 模型 能 够 作为 模型 判别 的 工具 , 比 
较 不 同 子 模 型 对 给 定数 据 集 的 适合 度 . 

Sun 和 Su(2008) 提出 的 一 般 加 速 均值 回归 模型 有 如 下 形式 : 


E[Ni(t)|2i] = wo(te9!»** )g( 3,2), (7.4.11) 


其 中 , Bi 和 Bo 是 未 知 的 p 维 回归 参数 , polt) 是 未 知 的 基本 均值 函数 , 连接 函数 
9(.) 是 事先 给 定 的 二 次 连续 可 微 函 数 且 g(-) > 0. 当 g(-) = 1 时 , 模型 (7.4.11) 就 
变 成 模型 (7.4.8); 当 By = 0 A g(x) = ez 时 , 模型 (7.4.11) 就 变 成 模型 (7.4.4); 
4 g(x) = e* A Boy = -Bio 时 , 模型 (7.4.11) 就 变 成 模型 (7.4.10). 同时, Sun 和 
Su(2008) 也 讨论 了 模型 (7.4.11) 是 可 识别 的 充分 必要 条 件 . 此 时 ， 


E{N} (t; B,)} = po(t)g(B2 Zi), 
其 中 , 6 = (67,63). W 
M(t: B) = f Y; (s; B1)A[N; (s; B1) — jo(t)g(BT Z:)). 


易 知 Mi(t; Bo) 是 零 均值 的 随机 过 程 , 其 中 , B, = (87), 83)". 
Sun 和 Su(2008) 根据 广义 估计 方程 的 思想 (Liang and Zeger, 1986) 提议 用 以 
下 两 个 估计 方程 来 估计 Bio 和 Boo: 


U1(8)= > [ " {Zi — Z(t; B)}Y:(t: B)AN (t; B), 


U2(8) = X> [ (Wet, ZiB) - Wet, Zi A)ANE EA), 
2 一 


其 中 ， 


Z(t; 8) = 二 一 ， 
L Y; (t; B1)g(B2 Zi) 


$ Y(t By)9(O ZN] Qi 
i=l 
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32 Vi(t; By )9(B3 Zi) W (t, Zi: B) 
W(t: 8) = E. 
2 ¥;(t; B1)g(B2 Zi) 


同样 ,Bo 的 估计 A, = Bi, Bi) 是 使 得 (U1(B)T,U2(B)T)T 的 零 相交 或 者 
是 使 U1(B)T,U2(B)T)TI| 达 到 最 小 的 解 . AE Dn 时 , polt) 的 估计 为 下 列 Nelson- 
Aalen 类 佑 计 : 

plo = F fi BN) ， 


9 > Yi (t; Bi)g(B Ba Zi) 

而 且 Sun 和 Su(2008) 也 证 明了 Ø, 几乎 处 处 收敛 到 Bo, 并 且 n!/2(B,, — By) 渐 近 
服从 均值 为 零 的 正 态 分 布 , 以 及 ni/2{7io(t) — yo(t)} 弱 收 敛 到 一 个 均值 为 零 的 高 斯 
过 程 . 

7.4.6 ”均值 和 强度 转移 模型 


为 了 度量 协 变量 的 一 些 其 他 影响 形式 ,Lin 等 (2001) 提出 了 下 列 半 参数 转移 
模型 : 


i=l 


E[Ni(t)|Zi(t)] = g{uo(t)e% 2}, (7.4.12) 
其 中 , g(-) 是 事先 给 定 的 二 次 连续 可 微 且 严 格 递增 的 函数 且 g(.) > 0. 这 个 模型 包含 
了 一 般 的 Box-Cox 模型 
[no(tbyeee 2+) + 1P — 1 
p ? 
其 中 , p > 0. AE B, polt) 的 一 个 合理 估计 为 下 列 方程 的 解 f(t; B): 


E[N; (t)|Z:(t)] = 


> Yi(t) [Ni(®) i gfno(t)es 39]] =0, 0gtgn, 
i=l 


其 中 , Yi(#) = 1(C; > t). 根据 广义 估计 方程 的 思想 , Lin 等 (2001) 提议 用 下 列 估计 
方程 来 估计 Bo: 


D | HH [Nee ~ alates BEO zan = 0, (7.4.13) 
其 中 , A(t) 为 [0,7] 上 递增 的 权 函 数 . 记 方程 (7.4.13) 的 解 为 B. TÆ, polt) 的 估 
it Alt: B), 而 且 Lin 等 (2001) 证 明了 B 唯一 存在 , 并 几乎 处 处 收敛 到 Bo. 同样 ， 
n1/2(B 一 Bo) 渐 近 服从 均值 为 零 的 正 态 分 布 , 以 及 n/A B) — po(t)} 弱 收 敛 到 一 
个 均值 为 零 的 高 斯 过 程 . 
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id Az,(t) ABE Z(t) 下 的 累积 强度 函数 . 基于 强度 函数 , Zeng 和 Lin(2006) 
提出 了 下 列 半 参 数 转 移 模 型 : 


Az,(t)=G { f | Ye (s) "Tut0q4(s) } , (7.4.14) 


其 中 , Y (s) 为 取 值 0 和 1 的 可 料 过 程 , 4(s) 为 一 个 未 知 的 递增 函数 . GCO) need 
定 的 三 次 连续 可 微 且 严格 递增 的 函数 , 满足 G(0) = 0, G’(0) > 0 WR G(co) = 
这 里 及 下 文 ，j(z) = df(z)/dzx. 记 Alt) = A(t), Vit) = I(Ci > HY? (t) 以 及 
Nit) = Ni(t A Ci). 在 模型 (7.4.14) F, 关于 4 和 B 的 对 数 似 然 函 数 为 


n 


D | [ i log A(t)dNi(t) + f : log G” { | K (ania)! dN; (t) 


i=1 


+ J BT Zilt)dN:(t) -G pi YNWA} | l 


如 果 4(.) 约束 为 绝对 连续 函数 , 则 上 述 函 数 没有 极 大 值 . 因此 , 为 了 获得 4 和 6B 的 
极 大 似 然 估计 , Zeng 和 Lin(2006) 允许 4 为 离散 的 , 并 用 4 在 t 的 跳跃 值 A{t} 来 
代替 上 式 中 的 A(t), 得 到 下 列 修正 的 对 数 似 然 函 数 : 


in(A, 8) = 3 | f “log A{t}dÑ;(t) + f og { f Yis)" ZOA) dNi(t) 
‘=1 


+f A" Z;(t)dN,(t) 一 cf i Y;(t)e?" Z: wash. (7.4.15) 


下 面 约束 4(.) 为 一 个 只 在 所 有 观察 事件 时 间 Xij (i = 1,… ,n,j = 1,… ,mi) 处 跳 
跃 的 离散 函数 , 其 中 , m 为 第 i 个 个 体 的 观察 事件 数目 . 这 就 等 价 于 式 (7.4.15) X 
FT BAM Xij(i= 1,…,n,j 二 1,… ,mi) 进行 极 大 化 . 由 此 获得 的 估计 称 为 非 参 数 
极 大 似 然 估计 . 

记 4 和 6 的 真 值 为 ho 和 By, 并 用 A, AB, 表示 它们 的 极 大 似 然 估计 . 在 一 
定 正则 条 件 下 , Zeng 和 Lin(2006) 证 明了 A, 和 8, 唯一 bee e 为 Bo 的 强 相 
合 估计 , 以 及 An 一 致 强 收敛 于 Ao. 另外 , n/?{An(-) — Al), An — Bo} 弱 收 和 敛 到 一 
个 均值 为 零 的 高 斯 过 程 , 而 且 BG, 是 Bo 一 个 渐 近 有 效 估计 . 

最 近 , 基于 累积 强度 函数 , Zeng 和 Lin(2007) 考虑 了 带 随 机 效应 变量 的 半 人 参数 
转移 模型 , 并 给 出 了 模型 参数 的 非 参 数 极 大 似 然 估计 . 同时 对 于 参数 估计 和 方差 估 
计 , 提出 了 一 个 简单 和 稳定 的 EM 算法 . 
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7.5 间隔 时 间 的 一 些 半 参 数 模型 


7.4 节 主 要 介绍 了 事件 发 生 时 间 下 的 各 种 边际 半 参 数 模型 及 其 估计 方法 . 在 实 
际 中 , 有 时 也 需要 考虑 一 些 协 变量 对 事件 间隔 时 间 的 影响 . 下 面 介绍 事件 间隔 时 间 
的 一 些 半 参数 模型 和 估计 方法 . 


7.5.1 ”边际 比例 风险 模型 


记 第 ;个 个 体 事件 发 生 的 间隔 时 间 为 Ti = Ti — Tiga, 其 中 , Tio = 0. 假设 
对 于 每 个 i, Nit) 是 一 个 更 新 过 程 , 即 {Tli = 1,2,---} 为 独立 同 分 布 的 随机 变量 ， 
其 风险 函数 为 下 列 比例 风险 模型 : 


ALZ) = Molt) Z, (7.5.1) 


其 中 , Xo(t) 为 未 知 的 基本 风险 率 函 数 , By 是 px1 维 的 未 知 回归 参数 向 量 , Z; 是 与 
时 间 独 立 的 协 变量 . 定义 M 为 可 观察 的 间隔 时 间 数 , 满足 


则 可 观察 的 数据 为 {Ta ,五 wmv Ci Zi} (i = 1,… ,n), 即 前 面 M: -1 个 间隔 
时 间 可 以 完全 观察 到 , 而 第 Mi; 个 间隔 时 间 被 Ty 删 失 , 其 中 ， 


j=1 


j-1 
注意 到 Ti; 的 删 失 时 间 为 Ci - 》 Tix, 而 且 删 失 是 相依 的 . 由 此 使 得 其 统计 分 析 比 
k=1 


较 复 杂 . 定义 A; = I(M; > 1), M} = max(M; — 1,1) UR 


= Tj, A=1 
Kym a : 
4 | Tt A; =0. 


ij? 


给 定 Ci, M; 和 Tia 由 文献 (Huang and Chen, 2003) 知 完全 观察 时 间 (Tj = 
1,… ,Mi 一 1} 是 独立 同 分 布 的 . 既然 第 一 个 间隔 时 间 的 删 失 是 独立 的 , 而 且 完全 
观察 时 间 是 可 交换 的 , 则 Eaj = 1,- , MŽ, i, Zihi =1,--- ,n} 可 以 看 成 是 成 
组 生存 数据 , 而 且 其 成 组 数目 是 有 信息 的 . 由 此 对 于 M: > 1, 在 分 析 的 时 候 , 其 删 
失 间 隔 时 间 必 须 去 掉 . 虽然 可 以 只 基于 第 一 个 间隔 时 间 和 Cox 部 分 似 然 方法 来 进 
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行 统计 分 析 , 而 且 所 获得 的 估计 是 相合 的 , 但 会 失去 一 些 有 效 性 . 为 了 获得 更 有 效 
的 估计 , Huang 和 Chen(2003) 建议 用 下 列 估 计 方 程 来 估计 Bo: 


r Eyl Ze FR > Mae {ANu <Oh 


U() = Ej {Zi Ail (Xiz < 一 7)} E 0 Es j{e8" 2: :I(Xij 2 t)} 


(7.5.2) 
其 中 ， Êij = EE;, Êi 和 Ê; 分 别 表示 对 i=1,…,n MZ = 1,… ,Mi 求 平均 . 记 式 
(7.5.2) 的 解 为 B. 于 是 , 累积 基本 风险 函数 A(t) = f Do(u)de 的 估计 为 
0 
a t dE; {Zi Ail (Xi; < u)} 
A = Se ee ee 
ol) f Êj {eP ZiI(Xij => u)} 
在 一 定 正 则 条 件 下 ，Huang 和 Chen(2003) 证 明了 有 唯一 存在 且 几 乎 处 处 收敛 
到 Bo. (AM n1/2(B - Bo) 渐 近 服从 均值 为 零 的 正 态 分 布 ， 其 方差 的 相合 估计 为 
PB SPB), 其 中 , PB) = —U'(B), È = El(Ej{w(Xiy, Ai, Z) he 以 及 
i As Ziy= a (z — on) [atay > >t)}- 
0 


BZ 


-1(Xi; > t)aK(t)| , 


Go(t) & (t) 


Rit) = {A(X < d}, Golt) = Eyl 4X; > Dh GW) = 
2{ZieB ZI Ry > t)}. 同样 , n!/2{ A(t) - Ao(t)} 弱 收敛 到 一 个 均值 为 零 的 高 
斯 过 程 . 

另外 , Schaubel 和 Cai(2004a) 通过 对 应 的 累积 风险 函数 给 出 了 间隔 时 间 的 条 
件 生 存 函 数 的 估计 . Schaubel 和 Cai(2004b) 在 一 般 情 况 下 讨论 了 间隔 时 间 下 的 条 
件 比 例 风险 模型 , 并 给 出 了 模型 参数 的 估计 方法 和 渐 近 性 质 . 由 于 篇 幅 有 限 , 这 里 
就 不 详细 讨论 了 , 有 兴趣 的 读者 可 以 阅读 他 们 的 文章 . 
7.5.2 ”边际 加 性 风险 模型 


与 边际 比例 风险 模型 相对 应 的 是 边际 加 性 风险 模型 , 这 两 个 模型 互 为 补充 . 下 
面 一 些 记号 与 上 节 相 同 . 间隔 时 间 下 的 边际 加 性 风险 模型 为 


和 (tl2i) = Ao(t) + Bg Zi- (7.5.3) 


同样 也 可 以 只 利用 第 一 个 间隔 时 间 以 及 Lin 和 Ying(1994) 的 估计 方法 来 进行 统计 
推断 , 而 且 所 获得 的 估计 也 是 相合 的 , 但 也 会 失去 一 些 有 效 性 . 为 了 获得 更 有 效 的 
估计 , Sun 等 (2006) 建议 用 下 列 估 计 方 程 来 估计 Bo : 


Exj{Zil(Xij > t)} 


= = dé;, 人 Ai 了 Ke oe 
ê U; > 0} j{ Ail (Xi < t)} 


U(B) = [ Q(t) {2 < gt)}— 


7.5 间隔 时 间 的 一 些 半 参 数 模型 - 215. 
2 
_ | ê /m227/ x.. > (6ij {Zi 1(Xi; > Z t)})® it), 7.5.4 
(enz I(Xiz 2 t)} - BURD} ~ Br (7.5.4) 


其 中 , Q(t) 为 已 知 的 权 函 数 . 记 式 (7.5.4) 的 解 为 P, 则 累积 基本 风险 函数 Alt) 的 
估计 为 


ay ft dey{ZiAiT(Xi < u)} — Eg {1 (Xi; < u)ĝ Zi jdu 
pas | E,{1(Xij > u)} 


在 一 定 正则 条 件 下 , Sun 等 (2006) 证 明了 B 几乎 处 处 收敛 到 Bo, 并 且 n? (8 ~ Bo) 
渐 近 服从 均值 为 零 的 正 态 分 布 , 其 方差 的 相合 估计 为 AU SA", 其 中 、 


£= Eill {DXi, Ai, Z:)}H®?], 


ae [ Q(t) észen, > = t)} a a cui dt, 


Go(t) 
(Xi, Ai, Zs) = [ (2:- an) fata (Šu >} - 12 Dag 
-1(Xi 之 Da (z 一 人 al, 


Go(t) = &{1(Xi; > t)} 和 Gi(t) = 6i{ Zi1(Xi; > t)}. 同样 ， nl/2{ Ao(t) — Ao(t)} 
弱 收 敛 到 一 个 均值 为 零 的 高 斯 过 程 . 
7.5.3 “加速 失效 时 间 模 型 

在 间隔 时 间 下 , Chang(2004) 提出 了 下 列 加 速 失效 时 间 模 型 : 


log Tij = ai + Bo Zi + Gj, (7.5.5) 
其 中 ， ai 为 脆弱 随机 变量 , {eij,j > 1} 独立 同 分 布 且 分 布 函数 未 知 . 假设 给 定 2 
F, 删 失 时 间 C 条 件 独 立 于 a; 和 {eij > 1}. 既然 不 能 观察 的 值 , 进一步 假 

ai 是 一 个 分 布 未 知 的 独立 随机 抽样 . 记 ef = mi + eig, 则 模型 (7.5.5) 可 写 为 


log Ti; = BT Zi a eij 


且 其 边际 均值 为 ETZ} = 0 ZE) 即 Bo 是 总 体 平 均 模 型 的 回归 系数 ， 
也 是 边际 协 变量 效果 . 假设 ct, 之 间 有 具有 交换 性 .Chang(2004) 考虑 了 两 种 估计 方 
法 . - -种 是 基于 秩 估计 方法 (Wei, et al, 1990). 定义 项 (6) = Tie" (j > 1), 
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X; (B) = min (z0. ), Cie- Sue 中 其 中 ， Xjo(8) = 0. 记 


So(x; 8) =n? a T EAT) > 7)， 


= t j= 1 


M? 


Sı(z; 8) =n ‘Lag 4 1(X;,(A) > 2), 
i=l t =l 
则 Chang(2004) 提出 的 秩 估计 方程 为 
RAY” aa 
i et Si (Xi; (8); B) 
U. = ory Ail Mi 之 2 Zi A > 7.5.6 
(= Do ag 2 Aula { So(Ti(B); B) | oe 


其 中 , Ais = 1 (E< a). 由 于 U,(8) 是 关于 B 的 跳跃 函数 , 所 以 Bo 的 估计 
i=1 
局 ,定义 为 U,(B) 的 零 相 交 , B 
Uu(B—-)Uu(B+) < 0. 


在 一 定 正 则 条 件 下 , Chang(2004) 证 明了 方程 (7.5.6) 的 解 存在 , 并 且 所 有 的 解 
都 是 Bo 的 强 相合 估计 , 即 所 有 解 是 等 价 的 . 另外, n/B,- By) 渐 近 服从 均值 为 
零 的 正 态 分 布 . 

Chang(2004) 的 第 二 种 估计 方法 是 基于 复发 事件 的 秩序 性 ， 定义 TA) = 
Tie" 2 (j > 1), X$,(B) = min(T$(B), Cie-8 3:) 以 及 Kn = max{M, — 1}2. 
则 Chang(2004) 提出 的 第 二 个 估计 方程 为 


U,(8) = ae Zi = = 


È 2il(Xi,(8) > = 
a ANN (7.5.7) 
i=l j=1 EK (Xi(B) > Xi(B)) 
同样 , Chang(2004) 证 明了 方程 (7.5.7) 的 解 存 在 , 并 且 所 有 的 解 都 是 Bo 的 强 相合 
估计 , 即 所 有 解 也 是 等 价 的 . 记 B, 为 式 (7.5.7) 的 一 个 解 . 则 n1/2(B, — Bo) 渐 近 服 
从 均值 为 零 的 正 态 分 布 . 

另外 , Strawderman(2005) 提出 了 一 个 加 速 间 隔 时 间 模 型 ， 并 给 出 了 模型 参数 
的 基于 秩 的 一 步 估计 方法 , 同时 证 明了 这 些 估计 是 有 效 估计 . 
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7.5.4 ”线性 转移 模型 
在 间隔 时 间 下 , Lu(2005) 考虑 了 下 列 半 参数 线性 转移 模型 : 
H(Tix) = -pt Zi + eir kK=1,---,t=1,---,n, (7.5.8) 


其 中 , H 是 未 知 的 单调 递增 函数 满足 H(0) = 一 00, eik 为 误差 项 , 其 分 布 已 知 且 为 
连续 的 . 同时 eir 独立 于 删 失 时 间 C; 和 协 变量 Zi;. 另外 , 假设 {ei1, €2,---} (i= 
1 … ,n) 为 独立 同 分 布 的 向 量 . 虽然 对 于 每 个 i, 4k AGM, ei 和 ei 可 能 是 相 
关 的 , 但 假定 它们 是 可 交换 的 且 有 相同 的 边际 分 布 . 记 A(t) 为 ak (k = 1,… ,i = 
1,.… ,n) 的 共同 的 累积 风险 函数 . 当 A(t) = et 时 , 模型 (7.5.8) 就 变 为 边际 比例 风 
险 模型 (7.5.1). 
既然 第 一 个 间隔 时 间 的 删 失 是 独立 的 , 由 Chen 等 (2002) 所 建议 的 估计 方法 可 

以 用 到 第 一 个 间隔 时 间 数 据 , 从 而 获得 AB, 的 估计 , 但 会 失去 一 些 有 效 性 . 为 了 
获得 更 有 效 的 估计 , 注意 到 给 定 Ci, Mi 和 Tv , 完全 观察 时 间 {Tij = 1,… ,Mi 一 
1} 是 独立 同 分 布 的 , 而 且 { (ij,7 = 1,---,Mt, Ai, Zihi = 1,… ,n} 可 以 看 成 
是 成 组 生存 数据 , 其 成 组 数目 是 有 信息 的 . 因此, 根据 完全 观察 时 间 的 可 交换 性 ， 
Lu(2005) 建议 用 下 列 估 计 方 程 来 估计 五 和 Bo: 

n M; 

Y ar D [ahs <t) - (Ky > Haat) + 6723] =0, #30, 


i=1 $ j=1 


n 1 M? z = 时 
2 M > Zi [ar (Xu < t) — I(Xij > t)dA{H(t) +BT2ij =0. 


3 j=1 


记 上 述 方程 8 的 解 为 B. 在 一 定 正则 条 件 下 , Lu(2005) 证 明了 A 唯一 存在 且 几 乎 
处 处 收敛 到 Go. 同时 , n1/2(B - By) 渐 近 服从 均值 为 零 的 正 态 分 布 . 


7.6 最近 进展 和 潜在 的 研究 方向 


前 几 节 主要 介绍 了 复发 事件 数据 分 析 中 的 一 些 非 参 数 和 半 参 数 模型 和 估计 方 
法 , 并 显示 了 各 种 方法 的 不 同 之 处 . 实际 中 , 选择 何 种 模型 取决 于 研究 者 的 目的 或 
数据 本 身 的 特性 . 在 复发 事件 数据 下 , 对 其 分 析 方 法 的 探究 仍 在 不 断 持 续 和 深入 中 . 
下 面 简单 介绍 最 近 的 一 些 进展 . 
7.6.1 ”信息 删 失 下 的 一 些 方法 


前 几 节 都 是 假设 在 给 定 协 变量 下 , 删 失 时 间 Ci 与 复发 事件 过 程 Ni(t) 条 件 独 
立 的 . 但 在 实际 问题 中 , 复发 事件 过 程 与 删 失 时 间 具 有 某 种 相依 性 , 如 死亡 引起 某 
种 复发 事件 的 终止 , 这 时 死亡 就 是 有 信息 删 失 时 间或 是 相依 删 失 时 间 . 
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在 有 信息 (相依 ) 的 终止 时 间 下 , Ghosh 和 Lin(2000) 给 出 了 事件 过 程 均值 函 
数 的 非 参 数 估计 ， 同 时 讨论 了 两 样本 下 的 非 参数 检验 方法 ， 此 方法 是 对 Cook 和 
Lawless (1997b) 方法 的 改进 和 扩展 . Strawderman (2000) 在 一 般 框架 下 研究 了 停 时 
的 事件 过 程 均值 函数 的 非 参 数 估 计 , 以 及 它们 的 相合 性 和 渐 近 正 态 性 ， 对 于 边际 
加 速 失效 时 间 均 值 模型 (7.4.8), Ghosh 和 Lin(2003) 利用 刻度 变化 模型 建立 了 复发 
事件 过 程 与 相依 删 失 时 间 的 半 参 数 联合 模型 , 其 分 布 形式 和 相依 结构 是 未 知 的 , 并 
获得 了 回归 参数 的 估计 方法 以 及 估计 的 相合 性 和 渐 近 正 态 性 . Ghosh 和 Lin(2002) 
考虑 了 事件 过 程 均值 函数 的 比例 均值 模型 (7.4.5)， 并 利用 删 失 逆 概 率 加 权 和 生存 
逆 概 率 加 权 , 给 出 了 回归 参数 的 两 种 估计 以 及 它们 的 相合 性 和 渐 近 正 态 性 . Liu 等 
(2004) 利用 随机 脆弱 变量 建立 了 复发 事件 过 程 的 强度 函数 和 死亡 时 间 的 风险 函数 
的 联合 模型 , 并 给 出 了 联合 模型 中 参数 和 非 参数 的 极 大 似 然 估 计 以 及 它们 的 蒙特 卡 
罗 EM 算法 . Ye 等 (2007) 利用 公共 的 伽 马 分 布 脆弱 变量 建立 了 比率 函数 和 终止 时 
间 的 联合 模型 , 并 获得 了 模型 参数 的 估计 方法 . Huang 和 Liu(2007) 提出 了 间隔 时 
间 和 生存 时 间 的 风险 函数 的 联合 比例 风险 脆弱 模型 , 并 给 出 了 联合 模型 中 参数 和 非 
参数 的 极 大 似 然 估 计 以 及 它们 的 蒙特 卡 罗 EM 算法 . Sinha 等 (2008) 从 Bayes 的 
观点 讨论 几 个 随机 模型 以 及 模型 诊断 问题 . 

在 相依 删 失 时 间 下 ,Wang 等 (2001) 通过 一 个 不 能 观察 的 随机 脆弱 变量 来 刻 
画 了 一 个 非 平稳 的 Poisson 过 程 , 建立 了 非 参 数 和 半 参 数 的 比例 强度 模型 , 并 利用 
估计 方程 的 思想 给 出 了 回归 参数 和 累积 比率 函数 的 估计 及 其 渐 近 正 态 性 . Wang 和 
Chiang(2002) 讨论 比率 函数 和 累积 比率 函数 的 非 参数 核 估 计 方 法 , 而 且 Chiang 等 
(2005) 给 出 了 这 些 估计 的 一 个 随机 加 权 Bootstrap 计算 方法 . 对 于 AG 比例 强度 模 
型 (7.3.1), Miloslavsky 等 (2004) 给 出 了 回归 参数 的 一 个 删 失 逆 概率 加 权 估 计 , 并 
讨论 了 估计 的 相合 性 . Huang 和 Wang(2004) 利用 随机 脆弱 变量 建立 了 复发 事件 
过 程 与 失效 时 间 的 联合 模型 , 并 通过 “ 借 力 估计 方法 ”(borrow-strength estimation 
procedure) 获得 了 这 两 个 模型 中 参数 和 非 参数 的 估计 , 同时 给 出 了 这 些 估 计 的 联合 
渐 近 正 态 性 . 对 于 事件 的 发 生 次 数 , Huang 和 Wang(2003) 考虑 了 发 生 次 数 和 失效 
时 间 的 联合 模型 , 提出 了 一 个 简单 的 联合 对 数 线性 模型 和 一 个 钳 套 的 联合 对 数 线性 
模型 , 并 获得 了 模型 参数 的 估计 和 它们 的 相合 性 和 渐 近 正 态 性 . 


7.6.2 ”其 他 相关 问题 


Cook 等 (2005) 利用 混合 的 Poisson 过 程 讨论 了 多 重 观察 期 间 下 删 失 复发 事件 
数据 的 估计 和 稳健 检验 . Zhao 和 Sun(2006) 研究 了 有 间隙 的 复发 事件 数据 , 给 出 
了 均值 函数 的 非 参 数 和 半 参 数 估计 方法 , 并 进行 了 两 样本 比较 . Fine 等 (2004) 在 
时 间 过 程 回归 框架 下 研究 了 变 系 数 的 一 般 均 值 转移 模型 , 并 提出 了 参数 的 “工作 独 
立 ” 估计 (‘working independence’ estimators), 同时 讨论 了 变 系数 的 检验 问题 . 
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如 果 复 发 事件 的 结果 不 止 一 种 类 型 ， 就 称 为 多 类 型 复发 事件 . 例如 , 研究 骨髓 
移植 之 后 的 感染 , 感 兴 趣 的 就 是 同时 研究 细菌 、 真 菌 和 病毒 感染 等 . 对 于 多 类 型 复 
发 事件 数据 , Abu-Libdeh 等 (1990) 考虑 了 有 随机 和 固定 效应 的 非 齐 次 Poisson 过 
程 , 并 利用 极 大 似 然 的 方法 对 未 知 参数 进行 了 统计 推断 . Cai 和 Schaubel (2004) 考 
虚 了 边际 比例 均值 和 比率 模型 , 并 利用 广义 估计 方程 的 思想 获得 了 模型 参数 的 估计 
以 及 它们 的 渐 近 性 质 . Cook 和 Lawless(2007) 介绍 了 一 般 强 度 模型 、 随 机 效应 模型 
以 及 模型 参数 的 极 大 似 然 方法 , 同时 给 出 了 边际 比例 比率 模型 中 参数 的 一 个 稳健 估 
计 方 法 . 在 事件 类 型 为 随机 丢失 情况 下 , Schaubel 和 Cai (2006a, 2006b) 分 别 利用 
加 权 估 计 方 程 和 赋值 思想 , 给 出 了 边际 比例 均值 和 比率 模型 中 参数 和 非 参 数 的 估计 
以 及 它们 的 渐 近 性 质 . Chen 和 Cook(2004) 在 相依 终止 时 间 下 , 给 出 了 多 类 型 复发 
事件 均值 函数 的 两 样本 检验 方法 . 

如 果 成 组 个 体 都 经 历 复 发 事件 , 就 称 为 成 组 复发 事件 数据 ，Schaubel 和 Cai 
(2005a, 2005b) 在 成 组 复发 事件 数据 下 , 提出 了 两 个 比例 均值 和 比率 模型 , 其 中 , 一 
个 模型 的 基本 比例 函数 对 于 成 组 个 体 是 相同 的 , 另 一 个 模型 的 基本 比例 函数 具有 成 
组 个 体 特性 ， 对 于 这 两 个 模型 的 回归 参数 ,其 估计 被 证 明 是 相合 的 和 渐 近 正 态 的 . 
对 于 第 一 个 模型 , 基本 均值 的 估计 是 一 致 相合 的 并 弱 收 敛 到 一 个 零 均值 的 高 斯 过 
程 . 同时 , Schaubel(2005) 在 成 组 数 为 小 样本 下 给 出 了 回归 参数 估计 的 一 个 稳健 方 
差 估计 . 

在 纵向 数据 研究 中 , 观察 时 间 可 以 看 成 是 一 个 复发 事件 过 程 、Sun 等 (2005, 
2007) 分 别 利用 半 参 数 条 件 模型 和 联合 模型 两 种 方法 研究 了 纵向 变量 依赖 观察 时 
间 和 删 失 时 间 的 估计 问题 , 并 给 出 了 模型 参数 的 估计 以 及 它们 的 渐 近 性 质 . Jin 等 
(2006) 提出 了 纵向 变量 、 观 察 时 间 和 生存 时 间 半 参数 联合 模型 , 并 给 出 了 模型 参数 
的 估计 以 及 它们 的 渐 近 性 质 , 同时 讨论 了 参数 的 检验 问题 . 

对 一 些 个 体 进行 多 次 观察 , 只 知道 在 每 个 观察 时 间 前 个 体 所 发 生 的 事件 总 数 ， 
而 不 知道 事件 发 生 的 具体 时 间 , 即 只 知道 在 观察 时 间 间 隔 中 所 发 生 的 事件 数目 ,而 
不 知道 其 事件 具体 发 生 的 时 间 , 这 种 数据 称 为 面板 计数 数据 . Sun 和 Kalbfleisch 
(1995) 给 出 了 复发 事件 过 程 均值 函数 的 一 个 简单 的 相合 估计 . Wellner 和 Zhang 
(2000) 在 复发 事件 过 程 为 非 齐 次 Poisson 过 程 的 假设 下 , 获得 了 均值 函数 的 非 参 
数 拟 似 然 估 计 和 极 大 似 然 估计 , 并 证 明了 这 些 估计 是 一 致 相合 的 和 依 分 布 收 敛 的 . 
Lu 等 (2007) 基于 样 条 函数 方法 获得 了 均值 函数 的 拟 极 大 似 然 估 计 和 非 参 数 极 大 
似 然 估计 , 并 证 明了 估计 的 相合 性 及 其 相应 的 收敛 速度 . Sun 和 Fang (2003), Zhang 
(2006) 以 及 Park 等 (2007) 分 别 考虑 了 单个 样本 、 两 个 样本 和 多 个 样本 下 的 均值 函 
数 的 检验 问题 , 并 获得 了 检验 统计 量 的 大 样本 性 质 ， Sun 和 Wei(2000) 以 及 Cheng 
和 Wei(2000) 在 边际 比例 比率 模型 下 , 分 别 给 出 了 模型 的 参数 的 相合 估计 及 其 渐 近 
正 态 性 . Wellner 和 Zhang (2007) 在 复发 事件 过 程 为 非 齐 次 Poisson 过 程 的 假设 下 ， 
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获得 了 比例 比率 模型 的 半 参 数 拟 似 然 估计 和 极 大 似 然 估计 , 并 在 一 定 的 条 件 下 证 明 
了 这 些 估计 的 相合 性 和 渐 近 正 态 性 . Huang 等 (2006) 和 Sun 等 (2007) 在 复发 事 
件 过 程 为 非 齐 次 Poisson 过 程 的 假设 下 , 分 别 利用 条 件 似 然 和 估计 方程 思想 给 出 了 
一 类 随机 效应 比例 均值 模型 的 估计 . Kim(2006) 运用 分 段 直线 的 方法 来 近似 基本 均 
值 函数 , 在 复发 事件 过 程 是 混合 Poisson 过 程 假设 下 , 利用 极 大 似 然 和 EM 算法 获 
得 了 未 知 参数 和 分 段 直线 斜率 的 估计 . Sinha 和 Maiti(2004) 利用 Bayes 方法 讨论 
了 随机 效应 比例 均值 模型 的 估计 问题 . 在 多 重 面板 计数 数据 下 ，Chen 等 (2005) WF 
究 了 一 个 随机 效应 强度 乘积 模型 , 并 给 出 了 模型 参数 的 极 大 似 然 估计 . He 等 (2008) 
研究 了 边际 均值 模型 的 回归 参数 估计 问题 , 并 得 到 了 估计 的 统计 性 质 . 


7.6.3 ”潜在 的 研究 方向 


由 于 复发 事件 过 程 与 删 失 时 间 存在 各 种 复杂 的 相依 关系 , 目前 仍然 存在 着 一 些 
重要 的 难题 有 待 于 寻找 有 效 的 统计 方法 去 解决 , 主要 是 怎样 充分 利用 数据 提供 的 信 
息 合理 地 建立 这 些 相依 变量 所 满足 的 统计 模型 ; 对 于 非 参数 模型 , 如 何 获得 最 有 效 
的 估计 ; 对 于 一 些 高 维 数据 , 为 了 避免 维 数 祸根 问题 , 需要 寻找 合理 的 半 参 数 模 型 
来 拟 合 数据 , 同时 给 出 有 效 的 模型 参数 估计 和 模型 检验 方法 ; 对 于 随时 间或 者 协 变 
量 而 变化 的 变 系数 半 参 数 模型 , 如 何 利用 局 部 多 项 式 拟 合法 、 核 估计 法 、 样 条 法 和 
筛选 法 等 对 变 系数 进行 统计 分 析 和 推断 ; 相依 结构 下 带 有 测量 误差 或 者 丢失 的 复发 
事件 数据 中 的 统计 建 模 问题 也 是 需要 研究 的 前 沿 统计 问题 . 

由 于 在 生物 学 、 医学、 生态 学 、 人 口 学 、 环境 学 和 经 济 学 等 学 科 的 研究 中 , 随 
着 实验 技术 、 检 验方 法 和 数据 分 析 手 段 的 日 益 提高 , 所 获得 的 数据 在 结构 上 越 来 
越 复杂 精细 , 所 提供 的 信息 也 越 来 越 繁杂 , 而 且 获 得 的 变量 个 数 越 来 越 多 . 由 于 复 
杂 数 据 种 类 较 多 , 包括 复发 事件 数据 、 成 组 数据 、 纵 向 数据 、 丢 失 数据 、 重 复 测 
量 数据 、 区 间 删 失 数 据 和 测量 误差 数据 等 , 需要 不 同 的 统计 模型 和 推断 方法 来 进 
行 分 析 , 这 就 导致 了 建 模 的 复杂 性 和 多 样 性 , 同时 使 得 模型 中 的 变量 选择 问题 更 加 
困难 . 

在 不 同 的 数据 结构 和 各 种 模型 下 , 如 何 有 效 地 进行 变量 选择 , 即 选 出 对 研究 对 
象 有 比较 重要 影响 的 变量 , 使 得 选择 的 模型 易于 解释 , 并 且 具 有 较 好 的 预测 能 力 , 同 
时 具有 无 偏 性 、 稀疏 性 和 连续 性 等 优良 特性 . 这 方面 的 研究 已 成 为 当今 统计 学 与 生 
物 学 、 医 学 、 生 态 学 、 社 会 学 、 环 境 学 和 经 济 学 等 交叉 学 科 中 重要 的 前 沿 问题 . 这 
些 研究 结果 将 为 临床 诊断 提供 重要 的 理论 依据 和 实际 指导 , 并 对 生物 和 医学 等 领域 
的 研究 起 着 推动 作用 . 

由 于 篇 幅 所 限 , 不 能 详尽 地 介绍 复发 事件 数据 研究 方面 的 所 有 结果 及 其 研究 现 
状 . 这 里 只 是 起 一 个 抛砖引玉 的 作用 , 有 兴趣 的 读者 可 以 具体 查阅 相关 文献 和 跟踪 
最 近 进 展 . 
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真正 的 知识 是 赁 原因 而 得 到 的 知识 . 
一 一 培根 《新 工具 》 


8.1 5| 言 


人 类 自古 以 来 利用 自然 现象 归纳 和 探索 事物 之 间 的 因果 关系 . 探索 众多 复杂 
事物 之 间 的 因果 关系 是 哲学 、 自 然 科学 、 社 会 科学 、 医 学 和 经 济 学 等 几乎 所 有 科 
学 研究 的 最 重要 的 目的 之 一 . 在 统计 学 的 发 展 史 上 , 因果 推断 的 研究 显得 步履 艰 
WE. Holland (1986) 指出 涉及 因果 推断 的 问题 自 始 就 缠 住 了 统计 学 的 脚后跟 . Galton 
(1888) 研究 遗传 学 中 各 种 因素 之 间 的 相互 关系 , 提出 了 相关 和 回归 的 概念 . 他 的 弟 
子 Pearson (1911) 论述 了 因果 与 列 联 (contingency) 的 关系 , 指出 两 个 事物 之 间 根 
本 的 科学 描述 总 能 归结 于 一 个 列 联 表 . 一 旦 读者 认识 了 一 个 列 联 表 的 性 质 , 他 将 掌 
握 了 原因 与 结果 之 间 关 联 的 本 质 . Yule (1903) 和 Simpson (1951) 提出 了 虚假 相关 
的 问题 , 指出 没有 因果 关系 的 两 个 变量 之 间 可 能 存在 相关 关系 , 称 为 Yule-Simpson 
TEW. Fisher (1925, 1935) 提出 的 随机 化 试验 是 检验 因果 作用 的 最 佳 标准 . 但 是 , 实 
际 中 很 多 研究 问题 不 能 采用 随机 化 试验 , 甚至 不 能 采用 试验 性 研究 , 而 只 能 采用 观 
察 性 研究 . 最 著名 的 观察 性 研究 之 一 是 20 世纪 30 年 代 在 英国 进行 的 吸烟 与 肺癌 
的 研究 . Doll 和 Hill (1950) 发 现 了 吸烟 与 肺癌 之 间 的 相关 关系 , 提出 吸烟 能 提高 患 
肺癌 的 危险 . 此 后 , 统计 学 家 Fisher 与 Doll 和 Hill 进行 了 一 系列 的 争论 , 其 焦点 
在 观察 性 研究 得 到 的 吸烟 与 癌症 之 间 的 相关 性 是 否 能 解释 为 吸烟 与 癌症 之 间 的 因 
果 关 系 . 研究 两 个 变量 X 和 YY 之 间 的 因果 关系 时 , 如 吸烟 X 与 是 否 患 癌症 了, 由 
X 与 了 的 列 联 表 仅 能 反映 它们 的 关联 性 , 而 不 能 确定 它们 是 否 有 因果 关系 . 很 难 
像 相关 系数 那样 , 用 变量 X A Y 定义 一 个 因果 作用 的 度量 , 用 X 与 Y 的 相关 系 
数 或 关联 度量 不 能 反映 它们 之 间 的 因果 作用 . Cox 和 Wermuth (1996) 的 专著 围绕 
着 因果 问题 进行 讨论 , 提出 了 链 图 模型 的 推断 方法 . 但 是 他 们 明确 指出 :“ 我 们 没有 
使 用 :因果 的 或 因果; 这些 词汇 .……: 科学 研究 的 一 个 目的 是 了 解 一 个 变量 对 另 
一 个 变量 的 作用 .….…… 我 们 谨慎 的 理由 是 : 很 难 由 一 个 研究 得 到 关于 因果 的 确实 
结论 .” 似 乎 观察 性 研究 在 推断 因果 关系 上 失效 , 得 不 到 确实 的 因果 结论 . 根据 观察 
性 研究 探索 因果 , 也 许 只 能 像 Popper 所 论述 的 那样 : 大 胆 地 提出 猜想 , 然后 进行 反 
”本 章 作 者 : 耿直 , 北京 大 学 教授 . 
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BS 而 不 能 严格 地 从 形式 上 证 明 一 个 因果 关系 . 历史 上 有 很 多 成 功 的 观察 性 研究 , 如 
Snow (1855) 发 现 霍 乱 是 一 种 饮水 传染 的 疾病 , 提出 霍乱 是 由 于 饮用 水 中 病菌 导致 
的 理论 ; Doll 和 Hill (1950) 关于 吸烟 与 肺癌 的 观察 性 研究 ; Rothman 和 Greenland 
(1998) 论述 了 流行 病 学 中 病因 分 析 模 型 和 因果 推断 等 问题 Thagard (2000) 探讨 了 
寻找 和 确定 疾病 病因 的 方法 . 

目前 有 三 个 主要 因果 模型 .模型 之 一 是 Neyman (1923) 和 Rubin (1974) 提出 
的 潜在 结果 (potential outcomes) 模型 ， 第 二 个 模型 是 Spirtes 等 (2000) 和 Pearl 
(1995) 提出 的 因果 网 络 图 . 这 个 模型 用 一 个 有 向 非 循环 图 描述 多 变量 之 间 的 因果 
关系 . 还 有 一 个 模型 是 Granger (1969) 因果 模型 . 这 个 模型 研究 时 间 序 列 的 因果 预 
测 问题 , 与 前 面 两 个 模型 有 不 同意 义 的 因果 概念 . 本 章 将 介绍 和 探讨 前 面 两 个 因果 
模型 . 潜在 结果 模型 用 于 研究 变量 之 间 的 因果 作用 . 它 假定 了 何 为 原因 变量 和 结果 
变量 , 对 原因 变量 对 结果 变量 的 因果 作用 进行 统计 推断 , 而 不 能 用 于 回答 一 个 结果 
的 原因 是 什么 的 问题 . 因果 网 络 模型 描述 多 变量 之 间 的 因果 网 络 关 系 , 它 研究 因果 
网 络 的 学 习 问 题 , 根据 数据 学 习 因 果 网 络 的 结构 和 网 络 的 参数 , 试图 发 现 变量 之 间 
何 为 因 与 何 为 果 的 因果 关系 . 

当今 统计 学 开始 向 探索 事物 之 间 因 果 作 用 和 因果 关系 方面 深入 (Freedman, 
1999)， 利 用 科学 试验 、 计 算 机 网 络 和 抽样 调查 等 形式 得 到 的 大 量 复杂 科学 数据 ， 
挖掘 发 现 大 规模 复杂 系统 中 众多 因素 之 间 相 互 影响 的 因果 关系 , 掌握 复杂 系统 的 机 
制 和 原理 , 制定 对 复杂 系统 如 何 进行 干预 决策 , 以 及 对 外 部 干预 所 能 造成 结果 的 预 
测 . 探索 大 规模 复杂 系统 的 因果 网 络 的 学 习 方 法 和 含 潜 变量 的 因果 推断 的 统计 方 
法 等 问题 具有 重要 的 理论 意义 、 广泛 的 应 用 前 景 和 巨大 的 挑战 性 . 

统计 推断 描述 变量 之 间 的 相关 和 关联 关系 , 而 因果 推断 探究 变量 之 间 的 因果 机 
制 . 在 生命 科学 研究 中 , 利用 各 种 生物 芯片 数据 , 综合 不 同 试验 条 件 下 的 数据 , 建立 
基因 和 蛋白质 调 控 网 络 . 基于 因果 关系 的 预测 方法 与 传统 的 基于 相关 关系 的 预测 
方法 不 同 . 一 个 结果 变量 可 以 有 效 地 预测 其 原因 变量 . 例如 , 利用 公鸡 打 鸣 能 够 很 
准确 地 预测 太阳 是 否 从 东方 升 起 来 了 ; 根据 少儿 的 鞋子 尺寸 能 够 预测 他 的 阅读 能 
力 . 这 种 预测 方法 的 不 足 之 处 是 , 对 总 体 进行 外 部 干预 的 情况 下 , 可 能 会 得 到 不 可 
靠 的 预测 结果 . 根据 由 观察 数据 得 到 的 预测 模型 , 一 位 天 真 的 统计 学 者 也 许 会 建议 
提早 公鸡 打 鸣 的 时 间 来 达到 使 太阳 早早 升 起 的 目的 ; 建议 少儿 穿 一 双 大 鞋 来 提高 他 
的 阅读 能 力 . 当 研 究 一 个 复杂 的 系统 时 , 类 似 的 预测 错误 就 不 一 定 那么 显而易见 了 . 
基于 相关 关系 的 预测 方法 只 适用 于 被 预测 样本 与 建 模 学 习 样 本 是 独立 同 分 布 情 况 
下 的 预测 . 在 实际 应 用 中 , 常常 希望 预测 系统 在 新 的 外 部 干预 情况 下 的 结果 . 基于 
因果 关系 的 预测 方法 可 以 用 于 外 部 干预 情况 下 的 预测 .首先 根据 历史 数据 或 学 习 
样本 发 现 多 变量 之 间 的 因果 关系 , 然后 根据 干预 的 模式 进行 预测 . 基于 因果 关系 的 
预测 方法 比 基 于 相关 关系 的 预测 方法 有 更 广泛 的 应 用 范围 . 例如 , 在 金融 经 济 、 公 
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共 卫 生 等 研究 问题 中 , 基于 因果 关系 的 预测 方法 对 不 同 干预 政策 和 援助 计划 进行 结 
果 的 预测 . 

仅仅 利用 观察 性 研究 得 到 的 数据 , 难以 确定 原因 和 结果 的 因果 方向 . 将 观察 得 
到 的 数据 与 试验 研究 得 到 的 数据 相 结合 ,有 利于 更 确切 地 判断 变量 之 间 的 因果 关系 . 
在 实际 研究 中 , 需要 反复 观察 、 反 复试 验 逐 步 认 识 多 变量 之 间 的 因果 关系 . RRA 
果 推 断 是 一 个 具有 挑战 性 的 统计 学 研究 问题 . “The New Challenge: From a century 
of Statistics to an Age of Causation” (Pearl, 1998). 


8.2 ”潜在 结果 模型 


首先 , 介绍 Neyman (1923) 和 Rubin (1974) 提出 的 潜在 结果 模型 . 这 个 因果 模 
型 与 哲学 家 Lewis (1973) 提出 的 虚拟 事实 模型 (counterfactuals) 的 因果 定义 是 一 
致 的 . 令 T 表示 某 种 处 理 或 暴露 因素 , 这 里 暴露 的 意思 是 接触 某 种 危险 因素 , 或 接 
受 某 种 治疗 方法 等 . 例如 , T = 1 表示 服用 某 种 药品 或 吸烟 , T = 0 表示 服用 安奈 
剂 或 不 吸烟 . 令 Yous 表示 观察 到 的 结果 , 潜在 模型 引入 了 个 体 u 的 潜在 结果 变量 
Yilu), 表示 个 体 在 暴露 T = t 情况 下 的 结果 , 通过 比较 Yiu) 和 Yi,(w) 来 确定 暴 
BE T =t MRR T =t HA u 的 个 体 因果 作用 . 例如 , 吸烟 (T = t) 相对 于 不 吸 
烟 (T =t) 对 张 三 (U =u) 是 否 患 癌症 的 因果 作用 可 以 定义 为 


¥i(u) — Yy (u), 


即 张 三 在 吸烟 情况 下 的 结果 减 去 他 不 吸烟 情况 下 的 结果 , 把 这 个 差 作 为 吸烟 对 张 
三 的 因果 作用 . 这 种 潜在 结果 模型 给 因果 作用 下 了 一 个 清晰 的 定义 . 但 是 , 正如 
Heraclitus ( 东 罗 马 皇 帝 ) 所 述 :“You can’t step into the same river twice (你 不 可 能 
两 次 踏 入 相同 的 河流 ). ”对 于 同一 个 个 体 不 可 能 得 到 两 个 不 同 暴露 情况 下 的 结果 
Yi(u) 和 Yo (u). 也 就 是 说 , 对 于 张 三 来 说 , 要 么 只 能 得 到 他 吸烟 的 结果 Y, (u), BA 
只 能 得 到 他 不 吸烟 的 结果 Yi,(w), 而 不 可 能 同时 得 到 这 两 者 . 因此 , 观测 数据 中 没有 
足够 的 信息 识别 个 体 因果 作用 . 下 面 讨论 识别 条 件 宽松 的 平均 因果 作用 . 设 感 兴趣 
的 总 体 有 n 个 个 体 , Rubin (1974) 定义 总 体 的 平均 因果 作用 (average causal effect) 
为 


ACE = E(¥; — Yy) = p Yı (u) 一 Yato) Jr 
u=l 
其 中 , E(-) 表示 在 该 总 体 上 求 期 望 . Fisher (1925, 1935) 提出 的 随机 化 试验 是 将 处 
H 了 进行 随机 分 配 . eT 为 二 值 暴露 , 如 了 = 1 表示 服药 , T = 0 表示 不 服药 , 采 
用 投掷 硬币 来 决定 一 位 患者 是 服药 T = 1, 还 是 不 服药 T = 0. RY, 为 二 值 结果 ， 
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Y, = 1 表示 有 效 , Yı = 0 表示 无 效 , 那么 EY; - Yo) = P(Yi = 1) -Po = 1). 
AT 5 (Yi, Yo) 独立 , 所 以 得 到 


BE( — Yo) = P(N = 1|T = 1) — P(Ya = 1|T = 0). 


如 果 假 定 服药 人 群 (T = 1) 的 观察 结果 Yos 等 于 他 们 的 潜在 结果 Y, 那么 就 得 
到 PO = WT = 1) = Pos = 1T = 1) 表示 服药 的 人 群 中 有 效 的 比率 , P(Y = 
UT = 0) = P(Yos = 1T = 0) 表示 不 服药 的 人 群 中 有 效 的 比率 , 这 两 个 比率 是 可 以 
根据 服药 人 群 和 不 服药 人 群 的 观测 数据 进行 估计 的 . 因此 , 随机 化 试验 给 出 了 一 种 
评价 总 体 平均 因果 作用 的 统计 方法 . 统计 学 是 研究 随机 现象 的 方法 学 , 包括 制造 随 
机 现象 . Fisher 利用 随机 数 人 为 地 引入 随机 性 , 提出 了 随机 化 试验 , 使 得 人 们 对 事 
物 的 认识 范围 从 相关 性 扩展 到 因果 性 , 这 个 扩展 是 因为 利用 了 上 帝 赐 予 的 随机 数 . 
但 是 , 在 许多 研究 中 禁止 使 用 随机 化 试验 , 甚至 禁止 使 用 试验 性 方法 , 而 仅 能 进行 
观察 性 研究 , 如 在 吸烟 与 肺癌 的 研究 中 , 如 果 采 用 随机 化 试验 , 将 具有 伦理 问题 . 采 
用 观察 性 研究 进行 因果 推断 离 不 开 必 要 的 假定 . 最 本 质 的 假定 是 可 忽略 性 假定 : $ 
X 表示 可 观测 变量 或 向 量 , 假定 给 定 观 测 变量 X 的 条 件 下 , 所 有 潜在 结果 Y, 与 处 
理 条件 独立 , 记 为 
(Ya Vt) LLTIX, 


称 为 强 可 忽略 性 假定 . 一 个 弱 的 假定 是 : 对 于 所 有 t, 
YALT |X, 


称 为 弱 可 忽略 性 假定 . 

引入 潜在 变量 后 , 观测 数据 模式 如 表 8.1 所 示 . 潜在 模型 引入 了 潜在 的 结果 变 
量 , 该 模型 清楚 地 定义 了 因 与 果 之 间 的 因果 作用 , 同时 也 清楚 地 描述 了 潜在 变量 的 
缺失 数据 问题 . 潜在 结果 模型 导致 大 量 不 可 观测 的 缺失 数据 , 因果 推断 中 的 重要 问 
题 之 一 是 参数 的 可 识别 性 . 可 以 看 出 , 7 T = t (tA t) 没有 同时 的 观测 数据 . A 
此 , 可 忽略 性 假定 是 不 可 由 观测 数据 进行 检验 的 . Holland (1986) 讨论 了 观察 性 研究 
进行 因果 推断 必须 基于 经 验 不 可 检验 的 假定 才能 进行 . 哲学 家 Popper (1968) 提出 
科学 与 非 科学 划 界 的 证 伪 原 则 , 如 果 一 个 理论 是 经 验 可 证 伪 的 (refutable), 那么 才 
被 认为 是 科学 的 ; 否则 , 认为 它 是 形而上学 的 . 不 可 证 伪 指 的 是 : 原则 上 不 可 以 被 观 
WREE, 即 不 可 能 想象 出 存在 一 种 现象 与 该 理论 不 符 . Dawid (2000) 依据 Popper 
的 这 个 证 伪 原 则 , 指出 潜在 结果 模型 需要 不 可 同时 观测 变量 的 联合 分 布 , 依赖 于 不 
可 检验 的 假定 , 实质 是 形而上学 的 , 反对 采用 潜在 结果 模型 进行 因果 推断 . 另 一 方 
面 , 潜在 结果 模型 需要 假定 虚拟 的 潜在 结果 的 存在 , 而 在 有 些 实际 应 用 中 , 这 种 虚 
拟 结果 的 存在 性 遭 到 很 多 学 者 的 质疑 . 例如 , 分 析 性 别 的 因果 作用 时 , 需要 假定 一 
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位 男性 假若 是 女性 的 虚拟 潜在 结果 . Holland (1986) 认为 因果 推断 中 的 因果 变量 应 
将 不 可 操作 的 变量 排除 在 外 . 


表 8.1 ”潜在 结果 模型 的 观测 数据 模式 


个 体 Yı Yo T X 
1 ia ? 1 hi 

k * ? i * 
k+l ? * 0 * 
n ? * 0 * 


+ 表示 观测 到 的 数据 , ? 表示 缺失 数据 . 


潜在 结果 模型 被 广泛 应 用 于 观察 性 研究 和 试验 研究 的 数据 分 析 . 例如 , 在 流行 
病 学 、 社 会 学 ,计量 经 济 学 有 大 量 的 观察 性 研究 , 探索 现象 之 间 的 因果 作用 . Morgan 
和 Winship (2007) 论述 了 潜在 结果 模型 和 因果 推断 在 社会 科学 中 的 应 用 . 

在 临床 随机 化 试验 研究 中 , 常常 出 现 数据 缺失 、 病 人 中 途 退 出 和 病人 不 依从 治 
疗 分 配 等 情况 . Imbens 和 Angrist (1994) 提出 了 利用 工具 变量 方法 识别 和 估计 临 
床 试 验 中 病人 不 依从 治疗 分 配 情况 下 依从 组 因果 作用 的 方法 . Frangakis 和 Rubin 
(1999) 提出 终点 指标 有 缺失 的 情况 下 依从 组 因果 作用 的 和 矩 估 计 方 法 , 该 方法 假定 缺 
失 机 制 是 潜在 可 忽略 的 . 在 潜在 可 忽略 缺失 机 制 的 假定 下 , Zhou 和 Li (2006) 提出 
了 多 值 依从 状态 情况 下 依从 组 因果 作用 的 估计 方法 . O'Malley 和 Normand (2005) 
讨论 了 连续 终点 指标 情况 下 依从 组 因果 作用 的 估计 方法 . Chen 等 (2009) 探讨 了 不 
依从 和 不 可 忽略 缺失 机 制 下 总 体 平均 因果 作用 的 可 识别 性 . 


8.3 ”因果 网 络 模 型 


Neyman 和 Rubin 的 潜在 结果 模型 是 评价 一 个 变量 对 另 一 个 变量 的 因果 作 
用 的 模型 .这 个 模型 需要 事先 假定 变量 间 的 因果 关系 . 它 不 能 用 于 发 现 变量 间 的 
因果 关系 . 另 一 个 描述 多 变量 之 间 因 果 关 系 的 模型 是 因果 网 络 模型 ， Spirtes 等 
(2000). Pearl (1995, 2000), Spiegelhalter 等 (1993) 提出 因果 网 络 图 , 探讨 由 观察 
性 研究 得 到 的 数据 进行 因果 推断 的 统计 方法 ， 一 个 图 G = (V,E) 由 结 点 集合 
V = {Xi1,X2,… ,Xn} 和 一 个 边 集 合 E 组 成 ， 两 个 结 点 之 间 的 一 条 无 向 边 记 为 
(X;,X;), 一 条 由 X; 指向 Xi 的 有 向 边 记 为 (Xi, X;)， 如 果 所 有 的 边 都 是 无 向 边 ， 
称 该 图 是 一 个 无 向 图 . 如 果 所 有 的 边 都 是 有 向 边 , 称 该 图 是 一 个 有 向 图 . 一 条 从 结 
点 Xi 到 结 点 Xi 的 路 径 p 是 由 从 X; 开始 中 间 不 重复 经 过 结 点 的 接续 连接 的 边 集 
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合 组 成 , 而 不 管 边 的 方向 . 如 果 该 路 径 上 所 有 边 的 方向 都 是 朝向 X;, 则 称 该 路 径 是 
从 X; 到 Xi 的 有 向 路 径 . 一 条 从 X; 到 X 的 有 向 路 径 称 为 一 个 有 向 环 . 一 个 没有 
环 的 有 向 图 称 为 有 向 无 环 图 (directed acyclic graph, DAG), 也 称 为 Bayes 网 络 . 图 
8.1 给 出 了 一 个 Bayes 网 络 . Bayes 网 络 中 每 一 个 结 点 表示 一 个 随机 变量 , 可 以 用 来 
描述 随机 变量 之 间 的 条 件 独立 性 . n 个 随机 变量 的 概率 分 布 可 以 用 链 规则 写 为 


P(z1,+-- ,2n) = [[ P(t 25-1), 
jaj 
其 中 , PU) 表示 条 件 概率 . S PA; 表示 结 点 Xj 在 Bayes 网 络 中 父 结 点 的 集合 . 对 
于 一 个 有 向 无 环 图 , 总 可 以 将 所 有 结 点 排序 , 使 得 每 个 结 点 X; 的 父 结 点 都 排 在 该 
结 点 之 前 , BY PA; C {Xi1,… Xj} 一 个 Bayes 网 络 描述 了 概率 分 布 具有 下 面 的 
条 件 独立 性 的 假定 : 
P(z;|21,+-+ ,Zi-1) = P(x;|pa;). 
图 8.1 的 Bayes 网 络 描述 的 概率 分 布 为 


P(z1, 22, £3, 14) = P(zl)P(zzlzl)P(zslzi)P(z4lzao, £3)P(£5|£4). 


如 果 Bayes 网 络 的 有 向 边 表示 因果 关 FG 
系 的 话 , 称 该 Bayes 网 络 为 一 个 因果 网 络 . ae on 


在 因果 网 络 中 , 一 条 有 向 边 X -，Y 表示 ms 
变量 X 是 变量 Y 的 原因 , 变量 Y 是 变量 < 
X 的 结果 . 给 定 一 个 因果 网 络 模型 , 结果 | 
变量 可 以 用 原因 变量 的 函数 来 描述 ， x, 


dehtu, FSi 图 8.1 Bayes 网 络 是 有 向 无 环 图 
其 中 , AO 是 未 知 函 数 , wj 表示 不 在 图 中 的 变量 引起 的 误差 项 . 一 个 函数 式 子 是 双 
方向 的 , 没有 因果 的 含义 . 例如 , zj = Zi 十 1 二 wj 可 改写 为 mi = zj 一 1 一 wj. 而 原因 与 
结果 是 单方 向 的 , 反馈 和 相互 因果 可 以 解释 为 前 一 时 刻 的 因果 关系 (如 (Xie, Xj) 
与 下 一 时 刻 的 因果 关系 相反 (如 (Xj, Xien) 与 函数 式 不 同 , Bayes 网 络 确定 了 
因果 的 方向 , 描述 了 单方 向 的 关系 , 变量 集合 PA; 是 变量 X; 的 原因 . 改变 原因 
PA; 将 可 能 会 改变 结果 Xj, 而 改变 结果 X 不 会 影响 原因 PA. 

一 个 因果 网 络 可 以 被 看 成 一 个 数据 产生 的 机 制 . 首先 从 网 络 的 无 父 结 点 的 变量 
X; (其 父 结 点 集合 PA; = ©) 开始 产生 数据 , zj = 方 (由 ), 其 中 , uy 是 来 自 于 某 一 
分 布 的 随机 扰动 ; 然后 产生 下 一 代 变 量 , 逐步 进行 , 直至 产生 了 所 有 变量 的 数据 . 原 
因 在 前 , 结果 在 后 . 这 个 数据 产生 过 程 可 以 解释 为 原因 与 结果 之 间 的 因果 机 制 . 
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如 果 能 掌握 数据 的 产生 机 制 , 那么 就 可 以 进行 各 种 外 部 干预 情况 下 的 预测 . 例 
如 , 在 外 部 强制 干预 改变 了 X 的 情况 下 , 不 应 该 再 根据 Xi 的 值 对 其 父 结 点 集合 
PA; 中 的 变量 进行 预测 . 基于 因果 关系 的 预测 方法 可 以 描述 为 当 得 到 一 组 数据 时 ， 
可 以 首先 试图 去 探索 和 学 习 手 上 数据 的 产生 机 制 , 然后 根据 这 个 机 制 去 预测 未 来 
数据 . 

仅仅 根据 一 个 时 间 点 的 观察 数据 是 否 能 找 出 变量 之 间 的 因果 关系 呢 ? 利用 条 
件 独 立 性 是 否 可 能 判断 因 与 果 ? Bayes 网 络 有 一 个 马 氏 性 质 : 给 定 父 结 点 集 PA; 
F, 变量 Xi 与 Xi 的 非 后 代 条 件 独立 . 给 Bayes 网 络 加 上 因果 意义 的 话 , 在 因果 
网 络 中 , 所 有 原因 变量 PA; 能 够 解释 清楚 其 结果 X 与 除去 X; 的 结果 (X; 的 后 
AR) 之 外 的 所 有 其 他 变量 (Xi 的 非 后 代 ) 之 间 的 相关 关系 . 特别 地 , 在 给 定 原因 条 
件 下 , 其 多 个 结果 之 间 , 如 果 相 互 没 有 因果 关系 的 话 , 是 相互 独立 的 . 例如 , 小 学 生 
的 阅读 能 力 和 鞋 的 尺寸 有 很 强 的 相关 性 , 但 是 , 它们 之 间 明 显 地 没有 因果 关系 . 在 
相同 年 龄 的 条 件 下 , 小 学 生 的 阅读 能 力 和 鞋 的 尺寸 也 许 变 得 相互 独立 . 作为 原因 的 
多 个 因素 , 即使 它们 之 间 是 相互 独立 的 , 但 是 给 定 结果 后 , 这 些 原因 因素 可 能 变 得 
相互 相关 了 . 例如 , 学 生 的 阅读 能 力 有 两 个 原因 , 一 个 是 他 的 年 龄 , 男 一 个 是 他 是 否 
喜欢 文学 . 已 知 一 个 学 生 的 阅读 能 力 , 假若 在 具有 相同 阅读 能 力 的 学 生 中 他 的 年 龄 
偏 小 , ABA, 他 很 可 能 喜欢 文学 . 相反 地 , 在 现实 中 很 难 想 象 存 在 一 种 情况 , 两 个 原 
因 因素 相互 相关 , 但 是 给 定 结果 后 , 这 两 个 原因 因素 变 得 相互 独立 了 . 仅仅 依靠 条 
件 独立 性 不 能 确定 出 所 有 的 因果 关系 . 一 个 最 简单 的 例子 , 假定 两 个 变量 X A 
之 间 确 实 有 因果 关系 , 观测 到 一 个 足够 大 的 样本 , 发 现 有 很 强 的 相关 性 . 仅 依靠 这 
样 一 组 观察 数据 得 不 到 谁 因 谁 果 的 结论 . 将 观察 性 研究 得 到 的 数据 和 各 种 试验 数据 
相 结 合 , 有 利于 发 现 更 多 的 因果 关系 . 

因果 网 络 的 主要 研究 问题 之 一 是 因果 网 络 的 学 习 . Heckerman (1999) 介绍 了 
Bayes 网 络 的 学 习 方 法 .Jordan (1999) 主编 了 统计 图 模型 学 习 的 论文 集 ，Cooper 
和 Yoo (1999) 提出 了 综合 观察 数据 和 试验 数据 的 因果 网 络 学 习 方 法 . Friedman 
(2004) 讨论 了 Bayes 网 络 在 基因 网 络 构建 方面 的 应 用 . Sachs 等 (2005) 讨论 了 利 
用 多 种 试验 数据 和 因果 网 络 方法 应 用 于 蛋白 质 调控 网 络 的 结构 学 习 问 题 . Elis 和 
Wong (2008) 提出 了 由 试验 数据 学 习 因果 网 络 的 方法 及 其 在 蛋白 质 调 控 网 络 中 的 应 
用 . He 和 Geng (2008) 提出 了 因果 网 络 的 主动 学 习 方 法 和 最 佳 试 验 设计 方法 . Xie 
等 (2006) 提出 了 Bayes 网 络 的 分 解 学 习 算法 , 给 出 了 利用 多 个 不 完全 观测 数据 库 和 
条 件 独 立 性 的 先 验 知 识 进行 网 络 结构 学 习 的 方法 . Xie 和 Geng (2008) 给 出 了 递归 
分 解 一 个 大 规模 网 络 的 结构 学 习 为 局 部 小 规模 的 网 络 的 结果 学 习 的 方法 . Studeny 
(1997) 提出 了 链 图 模型 的 结构 学 习 方 法 .Ma 等 (2009) 提出 了 链 图 模型 的 分 解 学 
习 方法 . 仅 由 观察 性 研究 得 到 的 数据 不 能 保证 确定 所 有 原因 和 结果 的 因果 方向 , 针 
对 未 确定 因果 方向 的 边 , 设计 试验 研究 , 能 进一步 确定 所 有 因果 关系 . He 和 Geng 


8.4 替代 指标 问题 . 235 . 


(2008) 提出 了 一 种 主动 学 习 的 方法 , 根据 观察 数据 得 到 的 因果 网 络 , 提出 有 效 设 计 
试验 的 方法 , 一 种 是 成 批 进行 试验 , 一 种 是 逐步 进行 试验 , 希望 能 够 以 最 少 的 干预 
试验 来 确定 所 有 变量 之 间 的 因果 方向 . Whittaker (1990) 和 Lauritzen (1996) 详细 
地 描述 了 统计 图 模型 的 统计 推断 方法 . 

大 规模 网 络 的 结构 学 习 是 一 个 具有 挑战 性 的 研究 课题 . 基于 Bayes 网 络 和 因果 
网 络 进行 因果 推断 的 哲学 基础 , 根据 观察 性 研究 探讨 数据 挖掘 和 发 现 因 果 关 系 的 方 
法 , 探讨 利用 纵向 研究 数据 进行 因果 推断 的 问题 , 都 有 待 于 进行 进一步 的 理论 探索 
和 应 用 研究 . 


8.4 ”替代 指标 问题 


在 科学 研究 , 特别 是 在 医学 研究 中 , 所 关心 的 终点 指标 常常 是 难以 获得 的 , 因 
此 , 不 得 不 寻找 一 个 替代 指标 , 利用 替代 指标 的 统计 推断 结果 来 推测 终点 指标 的 结 
论 . 例如 , 在 治疗 癌症 的 手术 和 治疗 艾滋 病 的 临床 试验 中 , 所 关心 的 终点 指标 是 治 
疗 后 病人 的 寿命 . 但 是 , 观察 病人 是 否 治愈 后 寿命 延长 了 5 FUE, 需要 很 长 的 观 
察 时 间 , 很 难 应 用 于 新 药 开 发 . 因此 , 经 常 采用 替代 指标 来 评价 疗效 . 例如 , 癌症 治 
疗 评价 的 替代 指标 是 肿瘤 的 大 小 , 艾滋 病 治疗 的 替代 指标 是 CD4 等 . 但 是 , 近年 来 
报道 了 很 多 错误 使 用 替代 指标 的 案例 (Fleming and DeMets, 1996). 

例 8.4.1 ”用 峻 激素 和 黄体 酮 进行 绝经 后 的 激素 补充 治疗 (HRT) 曾 被 认为 能 
降低 患 心脏 病 的 风险 , 其 理由 是 激素 治疗 降低 血清 胆固醇 , 胆固醇 低 的 人 一 般 患 心 
脏 病 的 风险 低 . 可 是 , 后 来 的 用 安奈 剂 对 照 的 随机 化 研究 表明 , HRT 实际 增加 心脏 
突 发 事件 (Waters, et al., 2002). 

例 8.4.2 HIV 感染 和 AIDS 的 研究 . 常常 采用 CD4 作为 治疗 AIDS 药物 的 
替代 指标 . 但 是 , 很 多 研究 发 现 治疗 对 CD4 的 作用 不 能 预测 治疗 对 临床 结果 (AIDS 
的 发 展 或 死亡 时 间 ) 的 作用 (Fleming, 1994). 

例 8.4.3 ”关于 绝经 妇女 骨 质 琉 松 的 研究 . 研究 表明 气 化 钠 组 增加 了 妇女 的 骨 
密度 , 但 是 处 理 组 比 安 奈 剂 组 有 更 高 的 骨折 率 . 结论 是 氟 处 理 增加 骨 密 度 , 但 使 得 
骨骼 变 脆 , 因此 , 导致 骨折 脆弱 (Riggs, et al., 1990). 

例 8.4.4 ”在 心脏 病 学 的 研究 中 , 曾 使 用 “减少 心室 异常 ”作为 降低 心血 管 死 
亡 率 的 替代 指标 . 其 理论 根据 是 轻微 心律 失常 会 导致 致命 的 心脏 骤 停 ,认为 抑制 心 
室 心 律 失常 能 够 减少 死亡 率 . 有 三 种 经 美国 FDA 批准 上 市 的 治疗 心律 失常 的 药 
物 , 尽管 它们 能 有 效 地 抑制 心律 失常 , 但 是 , 后 来 发 现 它们 都 提高 了 病人 的 狂 死 率 
(Moore, 1995). 

近年 来 ,关于 替代 指标 的 准则 提出 了 各 种 质疑 . Fleming 和 DeMets (1996), 
Baker (2006) 以 及 Alonso 和 Molenberghs (2008) 对 替代 指标 的 案例 和 准则 进行 了 
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探讨 . 

到 目前 为 止 , 已 经 有 不 少 关 于 确定 替代 指标 的 准则 . 直观 上 , 首先 能 想到 的 是 
强 相 关 准 则 . 如 果 一 个 指标 与 终点 指标 有 很 强 的 相关 性 的 话 , 这 个 指标 似乎 是 一 个 
不 错 的 替代 指标 . 但 是 , Baker 和 Kramer (2003) 针对 连续 指标 的 情况 , 指出 了 一 个 
与 终点 指标 完全 相关 的 指标 也 许 不 是 一 个 正确 的 替代 指标 , 他 用 例子 说 明了 一 个 相 
关系 数 为 1 的 指标 , 可 能 导致 治疗 对 替代 指标 有 正 作 用 , 但 是 对 终点 指标 有 负 作用 . 
Chen 等 (2007) 关于 二 值 变 量 提 出 了 类 似 的 问题 . 

Prentice (1989) 提出 了 条 件 独立 性 准则 : 给 定 蔡 代 指 标 5 的 条 件 下 , 终点 指标 
Y 应 该 与 是 否 治疗 T 条 件 独立 . 直观 上 , 这 个 条 件 独 立 说 明 所 有 的 治疗 效果 都 是 
经 过 替代 指标 传递 给 终点 指标 的 . 在 这 个 条 件 独 立 的 准则 下 , 确实 可 以 证 明治 疗 与 
替代 指标 独立 的 话 , 一 定 有 治疗 与 终点 指标 独立 的 结果 . 因为 


Pilt) = f Pls, dP(std)as = f Puls) PCslt)ads, 
如 果 给 定 替 代 指 标 条 件 下 , 结果 与 处 理 独立 (YJ 中 T|S), 那么 
Ptult) = f Plyis)P(s)as = Plu). 


因此 , 由 治疗 与 替代 指标 独立 (TILS) 能 推出 治疗 与 终点 指标 独立 (TIY). 当 变 量 
是 二 值 变 量 时 , 还 可 以 得 到 逆 结 果 也 成 立 , 即 替代 指标 与 终点 指标 独立 (TILLY) 的 
话 , 它 也 一 定 与 替代 指标 独立 (TILS). 基于 条 件 独 立 准则 的 替代 指标 , 统计 零 假设 : 
治疗 与 替代 指标 不 相关 (Ho: TILS) 成 立 的 话 , 真正 关心 的 假设 : 治疗 与 结果 不 相 
关 (Hi: TIY) 就 成 立 , 意味 着 治疗 对 替代 指标 没有 效果 的 话 , 治疗 对 终点 指标 就 
BARR. 

Freedman “ (1992) 提出 了 评价 替代 指标 的 方法 . 假设 得 到 了 一 个 研究 样本 ， 
其 中 , 替代 指标 和 终点 指标 都 观测 到 了 . 设 终点 指标 Y 是 二 值 的 情况 , 他 们 定义 了 
一 个 处 理 作 用 比率 (proportion of treatment effect, PTE) 


— fa 

PTE = 1 一 他 

其 中 , 8 和 6。 分 别 是 下 面 边 缘 和 条 件 logistic 回归 模型 中 的 参数 ; 
P(Y =1/T =t) 

81 PY =T= 
P(Y =1|S =s,T =t) 

BI PY =1|\9=s8,T =) 

WR PTE = 1, 意味 着 ba = 0, EAR 5 的 条 件 下 , Y 独立 T, BAZ Prentice HE 

则 的 意义 上 , 5 是 Y 的 一 个 完美 的 替代 指标 . 这 个 PTE 的 问题 是 : 条 件 logistic 模 


lo =a + tt, 


l = Qa + Bat + Yas- 
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型 成 立 的 话 , 其 边缘 不 是 logistic 模型 . 一 般 地 , 上 面 两 个 模型 不 可 能 同时 成 立 , 而 
且 这 个 评价 方法 需要 有 一 个 观测 了 终点 指标 的 样本 .关于 替代 指标 评价 的 更 多 探 
讨 , 参见 文献 (Burzykowski, et al., 2005). 

Frangakis 和 Rubin (2002) 以 及 Rubin (2004) 指出 Prentice 的 条 件 独 立 性 准则 
不 能 保证 因果 必要 性 , 也 就 是 说 , 这 个 准则 不 能 保证 治疗 对 替代 指标 疫 有 因果 作用 
的 话 , 就 一 定 有 治疗 对 终点 指标 没有 因果 作用 . 他 们 提出 了 基于 主 分 层 的 概念 , E 
分 层 定 义 为 根据 潜在 结果 变量 S 定义 的 分 层 . 基于 因果 必要 性 的 理论 , 他 们 提出 了 
主 分 层 替 代 指 标的 准则 : 如 果 对 所 有 的 s, 下 面 两 个 基于 主 分 层 定义 的 治疗 (T= 1) 
情况 下 的 潜在 终点 指标 Yi 集合 与 对 照 (T = 0) 情况 下 的 潜在 终点 指标 Yo 集合 


{YiilSu = Soi = s} 和 {yYoil5u 一 Soi = s} 


有 相同 分 布 的 话 , 那么 S 是 一 个 主 替代 指标 (principal surrogate). 这 个 替代 指标 用 
于 比较 处 理 了 = 1 和 了 = 0 对 终点 指标 Y 的 作用 , 那么 治疗 T HER S 无 因果 
作用 , 则 对 终点 指标 Y 无 因果 作用 . 

Lauritzen (2004) 利用 因果 网 络 定义 了 强 替 代 指 标 S, 如 图 8.2 所 示 . 中 间 因 素 
S 是 治疗 人 至 终点 指标 Y 因果 路 径 上 的 中 间 变 量 . 强 替代 指标 可 以 保证 治疗 了 对 
替代 指标 S 无 因果 作用 的 话 , 治疗 T 对 终点 指标 Y 就 一 定 无 因果 作用 . 因此 , 强 
替代 指标 满足 因果 必要 性 , 它 也 是 一 个 主 分 层 替 代 指 标 . 但 是 , 因果 必要 性 没有 考 
虑 因果 作用 的 正 负 号 , 可 能 会 出 现 治 疗 T 对 替代 指标 S 有 正 作用 , 进一步 奉 代 指 
标 S 对 终点 指标 Y 也 有 正 作用 , 但 是 治疗 T 却 对 终点 指标 Y 有 负 作 用 . 主 分 层 
替代 指标 和 强 替 代 指 标 都 可 能 出 现 治疗 T 对 替代 指标 S 有 正 的 平均 因果 作用 , 并 
且 替 代 指 标 S 对 终点 指标 Y 也 有 正 的 平均 因果 作用 , 但 是 , 治疗 了 对 终点 指标 了 
有 负 的 平均 因果 作用 . Chen 等 (2007) 用 几 个 例子 说 明了 这 种 现象 的 可 能 性 , 称 这 
种 现象 为 替代 指标 悖 论 (surrogate paradox). 


S 
图 8.2 ” 强 替 代 指 标 5 
在 强 替 代 指 标的 因果 网 络 的 情况 下 , 概率 分 布 为 


T e Y 


Plt, uw, s,y) = P(t)P(ujt)P(s|t, u)P(y]t, u, s) = P(t)P(u)P(s]t, u)P(yļu, s). 


Pearl (1995) 提出 系统 外 部 强制 某 一 变量 取 值 为 一 常数 的 外 部 干预 的 概念 ， 例 如 ， 
外 部 干预 do(T = t) 表示 强制 变量 T 取 值 为 t. 在 外 部 干预 do(T =t) 下 有 P(T = 
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t) 二 1 和 P(T =) =0, HH, At. 于 是 得 到 该 干预 后 的 分 布 为 在 了 = RHF, 
Plu, s,yldo(T = t)) = P(u)P(s|t,u)P(y|u, s) = P(u, s, ylt). 


E T At 条件 下 有 Plu,s,yldo(T = t)) = 0. 由 上 式 可 以 看 到 外 部 干预 do(T=t) 后 
的 分 布 等 于 在 条 件 T =t 的 分 布 . 这 是 因为 被 干预 的 结 点 T 在 因果 网 络 内 是 一 个 
没有 父 结 点 的 根 结 点 , 它 不 受 其 他 结 点 的 影响 . 由 上 面 干 预后 的 分 布 , 可 以 得 到 处 
ET Mt PAR S 的 平均 因果 作用 (ACE) 
ACE (T > S) = ElSldo(T = 1)] — E[S|do(T = 0)] 
= P(S = 1|do(T = 1)) — P(S = 1|do(T = 0)). 
现在 考虑 外 部 干预 do(S = s). 该 外 部 干预 使 得 5 取 值 为 s, 不 再 受 了 和 U 的 影 


响 . 因此 有 P(sltu) = P(s) = 1 和 P(s'|t,u) = 0, HH, s! As. 该 干预 后 的 分 布 为 
E S= s KAFF, 


P(t, u, y|do(S = 9)) = P(t)P(u)P(ylu, s) # P(t,u,yls). 
于 是 可 以 得 到 中 间 结 果 S 对 终点 指标 Y 的 平均 因果 作用 为 
ACE(S > Y) = P(Y = 1jdo(S = 1)) — P(Y = 1\do(S = 0)). 


下 面 给 出 几 个 例子 说 明 替 代 指 标 悖 论 的 现象 . 第 一 个 例子 说 明 处 理 了 对 中 间 指 标 S 
有 正 的 平均 因果 作用 , 进一步 , 中 间 指 标 5 对 终点 指标 Y 也 有 正 的 平均 因果 作用 , 但 
是 可 能 出 现 处 理工 对 终点 指标 Y 有 负 的 平均 因果 作用 的 现象 , 即 ACE(T 一 S) > 0, 
并 且 ACE (S 一 Y) > 0, 但 是 可 能 出 现 ACE (T >Y) < 0. 

例 8.4.5 ”假定 概率 为 P(T = 1) = 0.5, P(U = 1) = 0.12, 其 他 在 表 8.2 中 给 
出 . 由 概率 分 布 可 以 得 到 人 对 S 的 平均 因果 作用 


ACE (T > S) = P(S = 1|do(T = 1)) — P(S = 1}do(T = 0)) = 0.1052 > 0. 
于 是 可 以 得 到 中 间 结 果 S 对 终点 指标 Y 的 平均 因果 作用 为 
ACE(S 一 Y)=PY=1lldo(S=1)- P(Y = 1|do(S = 0)) = 0.7476 > 0. 


直观 地 , ACE (T > S) 和 ACE (S — Y) 都 是 正 的 , 那么 应 该 有 ACE (T >Y) 为 
IE. 但 是 , 由 概率 分 布 得 到 


ACE (T > Y) = P(Y = 1|do(T = 1)) — P(Y = 1|do(T = 0)) = —0.1008 < 0. 
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另外 , 由 概率 分 布 可 以 计算 得 到 S 和 Y 的 比值 比 (odds ratio) ORsy = 30.35, 意 
RAG SA Y 有 很 强 的 关联 性 . 进一步 说 明 即 使 一 个 变量 与 终点 指标 有 很 强 的 相关 
HE, 也 不 能 保证 不 出 现 替 代 指 标 悖 论 的 现象 . 


表 8.2 ”假设 的 概率 分 布 


P(S = 1|u, t) P(Y = llu,s) 
T=0 FEl S=0 S=1 
U=0 0.18 0.17 0.01 0.97 
U=1 0.02 0.97 0.83 0.02 


如 果 定 义 一 个 新 变量 S 为 原来 中 间 指 标 S 的 负数 : S = —S, 那么 能 得 到 两 
个 负 的 平均 因果 作用 : ACE (T — S') < 0 和 ACE (S’ 一 Y) < 0, 这 时 应 该 有 
ACE(T 一 Y) > 0, 但 是 它 还 是 为 负 的 . 

上 面 的 例子 描述 了 S 是 一 个 强 替代 指标 , 即使 S GY 有 很 强 的 边缘 相关 性 ， 
ACE (T > Y) 的 正 负 号 仍 不 能 由 ACE(T 一 S) 和 ACE (S > Y) 的 正 负 号 确定 . 
在 下 面 的 例子 中 , 将 说 明 当 ACE (T 一 S) > 0 时 , 即使 ACE (S — Y|U =u) >0 
对 所 有 u 都 成 立 , 仍 可 能 ACE (T > Y) <0. 

例 8.4.6 ”假设 概率 分 布 P(U = 1) = 0.27, P(T = 1) = 0.5, 其 他 如 表 8.3 
所 示 , WA ACE (T 一 S) = 0.1127 > 0, ACE (S + Y|U = 0) = 0.91 > 0 和 
ACE (S > Y|U = 1) = 0.01 > 0. 但 是 得 到 ACE (T — Y) = —0.1040 < 0. 


表 8.3 人造 的 概率 分 布 


P(S = 1lu,t) P(Y = 1lu, s) 
T=0 T=1 S=0 S=1 
U=0 0.18 0.02 0.01 0.92 
U=1 0.02 0.87 0.02 0.02 


上 面 的 例子 描述 了 S 是 一 个 强 替 代 指 标 , 则 有 ACE (T 一 S) > 0 成立, 即使 5 
在 各 种 意义 上 或 者 在 每 个 个 体 的 意义 上 (U = u) 都 对 终点 结果 Y 有 正 的 作用 ( 即 
对 所 有 u, ACE (S > Y|U = u) > 0 都 成 立 ), 仍 可 能 出 现 ACE (T > Y) < 0. 最 后 ， 
给 出 一 个 关于 心脏 病 研究 的 实际 例子 , 并 用 设想 的 数据 说 明 该 研究 中 出 现 的 现象 . 

例 8.4.7 Moore (1995) 的 书 《 致 命 的 药物 》 中 详细 地 报道 了 一 个 历史 上 最 惨 
重 的 药物 研究 灾害 的 案例 . 这 个 案例 是 一 个 关于 错误 选择 替代 指标 的 经 典 例子 . 该 
研究 是 一 个 关于 避免 心脏 病 导 致 狂 死 的 新 药 开发 临床 研究 和 药品 上 市 后 的 追踪 研 
究 . 依据 心律 失常 抑制 理论 , 即使 是 轻微 心律 失常 也 会 导致 致命 的 心脏 又 停 , 认为 
抑制 心室 心律 失常 能 够 减少 死亡 率 , 因此 , 采用 “减少 心室 异常 ?” 作为 降低 心血 管 
死亡 率 的 替代 指标 . CAST 研究 是 一 个 评价 已 经 上 市 的 三 种 抑制 心律 失常 药物 的 研 
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究 . 这 三 种 上 市 的 药品 为 Enkaid (别名 : encainide), Tambocor (化 学 名 : flecainide 
acetate), Ethmozine (别名 : moricizine), 它们 都 可 以 有 效 地 抑制 心律 失常 , 得 到 了 美 
国 FDA 批准 , 可 用 于 生命 危险 或 严重 症状 心律 失常 的 病人 .CAST 研究 的 初期 结 
果 令 人 吃惊 : Enkaid 和 Tambocor 试验 组 由 于 33 人 突然 死亡 而 提前 终止 , 安奈 剂 对 
照 组 仅 9 人 死亡 ; Ethmozine 组 抑制 早 博 的 效果 明显 不 如 Enkaid 和 Tambocor, 但 
是 , 只 发 生 了 少数 几 例 死亡 . 当时 没有 做 过 减少 心律 失常 是 否 能 减少 死亡 率 的 追踪 
试验 研究 (follow-up), 在 美国 每 年 有 20 多 万 人 服用 这 些 药 . 在 招收 病人 进入 CAST 
的 两 年 中 , 有 超过 5 万 人 死 于 抗 心律 失常 药 . 这 个 数字 与 越南 战争 以 及 朝鲜 战争 中 
死亡 的 人 数 相当 , 是 美国 经 历 的 最 大 的 一 次 药物 灾害 事件 . 

现在 用 设想 的 数据 形式 化 地 描述 该 研究 出 现 这 个 结果 的 问题 所 在 . & T = 1 
表示 治疗 , T = 0 表示 对 照 ; S = 1 表示 换 制 了 心律 失常 , 5 = 0 表示 未 抑制 心律 失 
W: Y = 0 RANI, Y = 1 ERRIRE; U = 0 表示 该 病人 有 心脏 损伤 , 或 者 存在 
某 个 未 知 的 基因 有 突变 . 假设 比率 P(U = 0) = 0.3 的 病人 有 心脏 缺损 , 该 研究 以 概 
率 P(T =1) = 0.5 将 病人 分 为 治疗 组 和 对 照 组 , 其 他 概率 如 表 8.4 Pros. 由 假设 的 
概率 分 布 可 以 得 到 处 理 大 约 三 倍 有 效 地 抑制 心律 失常 ， 


P(S = 1|T = 1)/P(S = 1|T = 0) = 3.02. 

但 是 , 处 理 增加 了 死亡 率 约 三 倍 ， 
P(Y =0|T = 1)/P(Y = 0|T = 0) = 2.91. 
处 理 组 中 7% 的 病人 心律 变 得 更 粳 ， 
P(S= 0|T = 1) = 0.07, 
这 个 药物 使 得 心脏 损伤 的 病人 (U = 0) Ba, 以 至 于 导致 他 们 死亡 ， 
P(Y =0|S =0,U =0,T = 1) = 1.00. 

由 概率 分 布 可 以 得 到 ACE (T 一 S) = 0.6220 > 0, ACE (5 一 Y) = 0.3010 > 0, 但 
是 , ACE (T 一 Y) = —0.0491 < 0. 这 说 明治 疗 可 以 减少 心律 失常 , 心律 失常 会 引起 
早期 死亡 , 但 是 抑制 心律 失常 不 仅 不 能 延长 寿命 , 反而 增加 了 死亡 率 . 这 个 现象 的 


一 个 可 能 的 解释 为 存在 一 个 混杂 因素 U, 如 心脏 有 损伤 , 它 既 影响 心律 , IAE 
有 影响 , 如 图 8.1 所 示 . 


表 8.4 ”设想 的 概率 分 布 
P(S = lju, t) P(Y = llu, s) 
T=0 T=1 S=0 S=1 
U=0 0.98 0.79 0.00 0.98 
U=1 0.02 0.99 0.98 0.99 
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为 了 避免 替代 指标 悖 论 , Chen 等 (2007) 建议 替代 指标 S 应 该 保证 有 下 面 的 一 
致 性 和 严格 一 致 性 . 
定义 8.4.1 (一 致 替代 指标 ,consistent surrogate) ”一 个 强 替代 指标 S 是 终点 
指标 了 的 一 致 替代 指标 ,需要 满 足 条 件 
(1) 当 定义 S, 使 得 ACE (S >Y) > 0 时 有 
ACE (T > $) <0 #4 ACE (T 一 Y) <0 


ACE (T > S) >0 #@ ACE (T >Y) 20; 
(2) ACE (T > S)=0 &@ ACE (T = Y) =0. 
注 “在 一 致 替代 指标 的 条 件 (1) 中 , 只 要 求 不 等 号 之 间 有 蕴含 关系 . 更 理想 的 
RAE EER RASS ABSA, 如 下 面 定 义 所 述 : 
定义 8.4.2 (严格 一 致 替代 指标 , strictly consistent surrogate) ”一 个 强 替代 指 
标 S 是 终点 指标 Y 的 严格 一 致 替代 指标 , 需要 满足 条 件 
(1) 当 定 义 S, 使 得 ACE (S 一 Y) > 0 时 有 


ACE (T + S) > 0 &4 ACE (T > Y) >0 


ACE (T > S) <0 &# ACE (T >Y) <0; 

(2) ACE (T > S)=0 #48 ACE (T => Y) =0. 

在 定义 8.4.2 中 , 没有 使 用 主 分 层 和 潜在 结果 的 概念 , 因此 , 不 需要 假定 潜在 结 
果 的 存在 性 . 下 面 给 出 一 臻 替代 指标 的 充分 条 件 . 

定理 8.4.1 假定 变量 之 间 有 图 8.1 的 因果 网 络 关 系 . 9 是 一 致 替代 指标 的 条 
件 如 下 : 

(1) Y 的 条 件 期 望 E(Y|s,u) 是 s HHH, 即 OE(Y|s,u)/ds > 0 KR <0 
(Vu); 

(2) 对 于 S,T 是 一 个 危险 因素 (Pp F(sjt", u) > F(slt',u), t > t", Vs,u), RA 
T 是 一 个 保护 因素 (Pp F(s|t”,u) < F(sit’,u), t >t”, Vs,u). 

因为 没有 观测 到 U, 定理 8.4.1 中 的 条 件 是 不 可 检验 的 , 需要 根据 专业 知识 来 
判断 条 件 的 合理 性 . 条 件 (1) 中 期 望 的 单调 性 意味 着 替代 指标 5 是 一 个 危险 因素 . 
例如 , 对 于 相同 背景 的 病人 , 肺 中 的 焦油 量 SRA, 患 肺癌 的 概率 或 期 望 就 越 大 . 
当 Y 是 一 个 二 值 变 量 时 , P(Y = 1ju,s') > P(Y = 1lu,s”) (Ys! > s”). FERRER 
型 E(Y|s,u) = bs 十 g(u) F, 条 件 (1) 自然 成 立 . KE (2) 意味 着 分 布 的 单调 性 , 它 
比 个 体 单 调 性 的 假定 更 弱 (Imbens and Angrist, 1994). 例如 , 同一 总 体 食用 大 量 盐 
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比 食用 少量 盐 有 较 大 的 概率 患 高 血压 , 但 不 要 求 每 一 位 个 体 食用 大 量 盐 一 定 比 他 本 
人 食用 少量 盐 更 容易 患 高 血压 . 又 如 , 在 随机 化 临床 试验 中 , 可 能 存在 不 依从 现象 . 
Imbens 和 Angrist (1994) 的 假定 要 求 不 存在 “逆反 者 ”, 即 不 存在 “给 药 不 服药 ”, 并 
且 “ 不 给 药 反 而 服药 ”的 人 ; 单调 性 假定 允许 存在 “逆反 者 ”, 只 要 求 “ 给 药 服药 ”的 
概率 大 于 “不 给 药 反而 服药 ”的 概率 . 

更 广义 地 讲 , 一 个 替代 指标 可 以 看 成 一 条 因果 路 径 上 的 中 间 因 素 , 替代 指标 悖 
论 可 以 看 成 中 间 指 标 悖 论 . 图 8.1 中 的 因果 网 络 常 被 用 于 描述 工具 变量 T 的 模型 ， 
因此 , 该 悖 论 还 可 以 解释 为 工具 变量 悖 论 . 在 联 立 线性 模型 情况 下 , 说 明 变 量 5 对 
响应 变量 Y 作用 的 工具 变量 估计 为 工具 变量 T 对 响应 变量 Y 的 作用 /工具 变量 
T 对 说 明 变 量 5 的 作用 . 当 没 有 线性 模型 的 假定 时 , 即使 找到 一 个 与 说 明 变量 5 
有 强 的 正 相 关 关 系 的 工具 变量 T, 可 能 会 出 现 工 具 变量 T 对 说 明 变 量 $ 有 正 作用 ， 
并 且 工 具 变量 T 对 响应 变量 Y 有 负 作 用 , 但 是 说 明 变 量 5 对 响应 变量 Y 有 正 作 
用 . 这 个 结果 与 通常 线性 模型 的 工具 变量 估计 的 正 负 号 不 相符 . 

替代 指标 是 科学 研究 中 的 一 个 重要 的 概念 . 关于 确定 替代 指标 的 准则 和 评价 
替代 指标 的 方法 都 有 待 于 进一步 研究 . 在 生物 医学 和 经 济 金融 学 的 应 用 中 , 找到 一 
个 合理 实用 的 替代 指标 的 问题 更 具有 挑战 性 . 


8.5 判断 混杂 因素 的 准则 


在 讨论 因果 推断 问题 时 , 总 是 要 提 及 因果 作用 的 可 识别 性 和 混杂 因素 . 假设 仅 
关心 结果 Y 与 暴露 X 两 个 变量 之 间 是 否 有 因果 关系 . 是 否 能 根据 这 两 个 变量 的 观 
测 数据 分 析 它 们 的 因果 关系 ? 是 否 还 需要 观测 其 他 哪些 变量 ? 选择 观测 变量 的 标 
准 是 什么 ? 一 个 似是而非 的 标准 是 : 与 这 两 个 变量 无 关 的 变量 , 就 不 必 观 测 了 , 但 
是 什么 是 “无 关 ” 呢 ? 

先 用 一 个 简单 的 例子 说 明 Yule-Simpson 悖 论 和 混杂 因素 的 概念 .设想 表 8.5 
给 出 了 一 种 新 药 的 临床 试验 数据 . 从 表 中 的 数据 可 以 看 到 新 药 组 的 疗效 是 80/200, 
安慰 剂 组 的 疗效 是 100/200. 因此 , 该 新 药 不 如 安奈 剂 有 效 . 同一 组 数据 如 果 按 照 
病人 的 性 别 分 组 的 话 , 可 以 发 现 不 管 是 男性 还 是 女性 , 新 药 组 的 疗效 都 比 安慰 剂 组 
的 疗效 高 . 因此 , 结论 是 : 一 种 对 人 类 无 效 的 新 药 对 男性 和 女性 都 有 效 . 这 种 现象 


表 8.5 Yule-Simpson 悖 论 的 例子 
有 效 无 效 TRA 
新 药 80 120 200 
安慰 剂 100 100 200 


— 80 100 一 
RD = 300 — 200 = —9-10 
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称 为 Yule-Simpson 悖 论 . Bickel 等 (1975) 给 出 了 Berkeley 研究 生 入 学 是 否 存在 性 
别 歧视 的 真实 数据 来 说 明 Yule-Simpson 悖 论 现象 . 

称 引 起 虚假 相关 性 的 变量 为 混杂 因素 , 如 前 面 例子 中 的 性 别 . 忽略 掉 混杂 因素 
将 会 导致 因果 推断 结论 的 偏 倚 , 称 为 混杂 偏 倚 . 在 因果 推断 中 , 判断 混杂 因素 是 最 
重要 的 任务 之 一 . 大 约 有 三 类 判断 混杂 因素 的 准则 . 第 一 类 准则 是 基于 可 压缩 性 的 
准则 , 这 类 准则 要 求 忽略 一 个 协 变量 不 会 影响 统计 推断 的 结论 . 与 变量 选择 的 后 退 
方法 类 似 , 不 同 的 是 , 这 种 准则 要 求 删除 一 个 变量 后 所 关心 的 参数 不 改变 , 而 不 是 
要 求 预测 不 改变 . 在 可 压缩 准则 下 , 删除 变量 后 所 关心 的 参数 不 变化 , 因此 , 这 个 
参数 不 会 出 现 Yule-Simpson 悖 论 的 现象 . 相关 的 讨论 , 参见 文献 (Wermuth, 1987; 
Geng, 1992; Geng and Asano, 1993; Guo and Geng, 1995; Cox and Wermuth, 2003; 
Ma, et al., 2006; Xie, et al., 2008). 


表 8.6 ” 按 性 别 分 组 后 的 数据 


男性 女性 
有 效 无 效 有 效 无 效 
新 药 35 15 45 105 
BEATA 90 60 10 40 
RD, = 0.10 RD2 = 0.10 


另 一 类 判断 混杂 因素 的 准则 是 基于 分 布 可 比较 性 的 准则 , 这 类 准则 首先 是 由 
Miettinen 和 Cook (1981) 通过 很 多 例子 归纳 得 到 的 : 一 个 混杂 因素 C 必须 满足 

(1) C 是 一 个 独立 的 危险 因素 ; 

(2) C 在 暴露 总 体 与 在 非 暴露 总 体 的 分 布 不 同 . 

Greenland Robins 和 Pearl (1999) 对 这 类 判断 准则 与 可 压缩 性 准则 进行 了 详 
细 的 讨论 . Geng 等 (2001, 2002) 形式 地 论证 了 Miettinen 和 Cook 的 准则 只 是 判断 
混杂 因素 的 必要 条 件 , 其 充分 性 需要 已 知 充分 混杂 因素 集合 的 假定 ( 称 为 可 忽略 假 
定 ), 而 该 假定 是 不 可 检验 的 . 没有 可 忽略 假定 的 话 Miettinen 和 Cook 的 准则 只 
能 确定 哪些 变量 不 是 混杂 因素 , 但 是 不 能 确定 哪些 变量 一 定 是 混杂 因素 . Wang 等 
(2009) 提出 了 多 混杂 因素 的 判断 准则 和 算法 . 

还 有 一 类 判断 混杂 因素 的 准则 是 根据 因果 网 络 图 来 确定 混杂 因素 的 . Pear! 
(1995) 给 出 了 无 混杂 的 充分 条 件 , 并 提出 了 识别 因果 作用 的 一 组 推理 规则 . Green- 
land Pearl 和 Robins (1999) 探讨 了 将 因果 网 络 图 应 用 于 流行 病 学 研究 , 提出 了 多 
个 混杂 因素 的 判别 准则 . 该 准则 能 够 处 理 复杂 的 多 混杂 因素 的 情况 , 但 是 这 种 方法 
首先 要 假定 一 个 完全 构造 的 因果 网 络 图 . 在 实际 研究 中 , 这 也 是 难以 做 到 的 . Geng 
和 Li (2002) 讨论 了 已 知 一 个 不 完全 因果 网 络 情况 下 判断 混杂 因素 的 条 件 . Wang 等 
(2009) 提出 了 将 基于 可 比较 性 的 准则 和 因果 网 络 图 的 准则 相 结合 的 方法 . 到 目前 
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为 止 , 仍 没 有 一 个 由 数据 可 以 检验 的 判断 混杂 因素 的 准则 , 使 得 这 个 准则 能 够 正确 
判断 一 个 因素 为 混杂 因素 ( 即 准则 的 充分 性 ), 或 者 能 够 正确 判断 一 个 因素 为 非 混 
杂 因 素 ( 即 准则 的 必要 性 ). 各 种 判断 混杂 因素 的 准则 都 是 建立 在 某 些 不 可 检验 或 
不 可 证 伪 的 假定 的 基础 上 的 准则 . Geng 等 (2002) 试图 去 掉 不 可 检验 的 假定 , 给 出 
一 个 判断 非 混杂 因素 的 准则 . 如 果 调 整 或 控制 一 个 因素 既 不 减少 也 不 增加 混杂 偏 倚 
的 话 , 就 判断 为 非 混杂 因素 . 但 是 这 个 准则 需要 建立 在 一 个 给 定 的 潜在 混杂 因素 的 
集合 的 基础 之 上 . 与 通常 的 准则 不 同 的 是 , 这 个 集合 不 一 定 要 求 是 一 个 充分 的 混杂 
因素 的 集合 . 

混杂 偏 倚 和 混杂 因素 是 因果 推断 中 的 核心 问题 . 确定 混杂 因素 的 准则 、 消除 混 
在 偏 倚 的 有 效 方法 、 纵 向 研究 中 混杂 偏 倚 的 纠正 、 利 用 工具 变量 解决 不 可 观测 混杂 
因素 引起 的 偏 倚 等 问题 都 有 待 于 进一步 研究 . 
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第 9 章 “复杂 疾病 基因 的 统计 关联 分 析 


基于 群体 数据 的 关联 分 析 方 法 研究 和 寻找 与 人 类 疾病 有 关 的 易 感 基因 (suscep- 
tible gene), 常用 的 数据 采集 方法 是 群体 病例 对 照 (case-control) 设计 . 病例 对 照 设 
计 是 一 种 回溯 型 研究 方法 , 适用 于 稀有 事件 研究 及 不 能 进行 随机 化 试验 和 入 工 干预 
的 情形 , 特别 是 人 类 稀有 疾病 的 风险 分 析 (Breslow and Day, 1980). 基因 在 病例 组 
和 对 照 组 的 分 布 如 果 有 差异 . 则 意味 着 该 基因 与 疾病 有 关联 . 抽样 设计 方式 的 特殊 
性 决定 了 人 类 基因 关联 分 析 与 其 他 设计 下 的 数据 统计 分 析 相 比 有 所 不 同 (Li, 2008). 
本 章 的 主要 目的 是 介绍 基于 群体 病例 对 照 数 据 的 单个 基因 关联 分 析 的 若干 检验 方 
法 , 其 中 , 包括 传统 的 列 联 表 分 析 方 法 , 针对 基因 模型 特点 的 分 析 方 法 以 及 配对 数 
据 的 分 析 方 法 . 
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9.1.1 ”遗传 学 中 的 一 些 基本 概念 
L 等 位 基因 和 基因 型 


人 类 基因 组 由 23 对 染色 体 组 成 (其 中 , 一 对 是 性 染色 体 ). 染色 体 上 一 个 特 
定 的 位 置 叫 做 位 点 (locus), 一 对 染色 体 上 在 同一 位 点 的 两 个 DNA 片段 称 为 等 位 
基因 (allele)， 如 果 某 个 位 点 的 等 位 基因 是 多 态 的 ， 则 该 位 点 可 以 用 来 作 标记 位 点 
(marker), 即 该 位 点 可 以 用 来 比较 具有 不 同性 状 人 群 之 间 的 差异 , 进而 定位 疾病 基 
因 . 现代 生物 医学 研究 中 常用 的 标记 位 点 大 多 是 二 态 的 (diallelic), 即 有 两 个 等 位 基 
Al, 如 SNP ( 单 核 背 酸 多 态 性 ). 通常 以 大 、 小 写字 母 表示 这 两 种 等 位 基因 , 同一 位 
点 上 的 两 个 等 位 基因 组 合 在 一 起 称 为 基因 型 (genotype). 假设 某 一 位 点 的 两 个 等 位 
基因 为 A, a, 不 考虑 等 位 基因 之 间 的 次 序 , 可 能 的 基因 型 有 三 种 : AA, Aa 和 aa, 其 
th, AA, aa 称 为 纯 合 体 , Aa 称 为 杂 合体 . 记 p = P(A), q = Pla) = 1 一 p 分 别 为 群 
体 中 A 和 a 的 频率 . 在 理想 的 假设 包括 随机 婚配 , 群体 一 致 等 条 件 下 , 群体 基因 型 
的 频率 满足 哈 迪 - 温 伯 格 平衡 (Hardy-Weinberg equilibrium, HWE) 


P(AA)=p?, P(Aa)=2pq, P(aa) = 92. (9.1.1) 


更 一 般 地 , 如 果 HWE 的 条 件 不 满足 , 那么 基因 型 的 频率 通常 可 以 表示 为 
KEER: BUT, 中 国 科学 技术 大 学 教授 . 
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P(AA) =p + Fpg, P(Aa) = 2pq(1 — F), P(aa) = q + Fpq, (9.1.2) 
$i F A Wright 近 交 系数 (Wright's inbreeding coefficient). 对 于 人 类 来 说 , Wright 
近 交 系数 一 般 为 0~0.05, 而 HWE 成 立 对 应 着 F= 0. 

2. 渗透 率 和 相对 风险 
以 随机 变量 Y 表示 疾病 状态 , 即 Y = 1 M Y = 0 分别 对 应 于 患 病 和 正常 两 种 
状态 . 感 兴趣 的 是 基因 (G) 是 否 影响 渗透 率 (penetrance), 即 得 病 概率 jc = P(Y = 


IG) 是 否 与 G EK. 考虑 一 个 具有 两 个 等 位 基因 A 和 a 的 位 点 , 三 种 基因 型 aa， 
Aa, AA 分 别 记 为 Go, Gi, G2, 相应 的 渗透 率 分 别 定义 为 


fo= P(Y =1laa), fı = P(Y =1\Aa), fe=P(Y =1/AA). 
假设 群体 中 HWE 成 立 , Bg; := P(G;) = (5) pigi, 那么 群体 疾病 流行 率 (popu- 
lation prevalence) K = P(Y = 1) 可 以 表示 为 
K = 92f2+ ifi + gofo = Pfa + 2pahi + 4° fo- 


假设 基因 型 Go = aa ASI (reference) 基因 型 , 定义 基因 型 G; 相对 于 Go 的 
相对 风险 (GRR) WA; = 所 /fo (i = 1,2), fo > 0. 利用 GRR, 将 群体 疾病 流行 率 重 
新 表示 为 K = folgo + A1gi + A2g2). 基因 关联 分 析 感 兴趣 的 是 基因 是 否 影响 患 病 
率 , 即 检验 零 假设 

Ho: fos fia fh2=K, (9.1.3) 
或 者 等 价 地 ， 
Ho : 入 1 一 入 2 =l. (9.1.4) 
如 果 假 设 A 是 风险 等 位 基因 (变异 ), 对 立 假设 可 以 表示 为 Hi : fe > fi > fo, fe> 
fo MB Hy: Xa > Ai 1, Ao > 1. 

3. 基因 模型 

当 零 假设 Ho 不 成 立时 , 假设 A 是 风险 等 位 基因 , 则 可 以 定义 基因 模型 . 文献 
中 常见 的 基因 模型 有 4 种 : 隐 性 模型 、 可 加 模型 、 乘 积 模型 以 及 显 性 模型 . 这 4 种 
基因 模型 可 以 由 渗透 率 f; (j = 0,1,2) 分 别 定义 如 下 : 


fe>fi=fo, fi=(fotfe)/2, fi=Vfofe, fi=fe> fo- 
等 价 地 , 基因 模型 也 可 以 用 相对 风险 来 定义 , 即 


M=1Ag>1, A=(14+A2)/2>1, 和 A=N2>1 `= 
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当 相对 风险 比较 弱 的 时 候 , 可 加 模型 能 较 好 地 近似 乘积 模型 , 这 是 因为 注意 到 和 2 一 
1 = 0, 并 利用 Taylor 展 式 将 ae 在 Xo — 1 处 展开 ， 


AP = (1+ Ag — 1)? 14 (A2 — 1)/2 =. 


直观 上 , 可 以 这 样 理解 这 几 个 基因 模型 (这 里 假设 A 是 风险 基因 ), 当 模 型 是 隐 性 模 
型 时 , 只 有 当 个 体 具 有 基因 型 AA 的 时 候 , 某 种 疾病 和 性 状 才 有 可 能 会 表达 ; 当 模 
型 是 显 性 模型 时 , 只 要 个 体 具 有 一 个 风险 基因 A, 性 状 就 可 能 会 表现 出 来 ; 可 加 模 
型 可 以 理解 如 下 : 个 体 表 现 性 状 的 机 会 随 着 它 的 基因 型 中 风险 基因 A 的 个 数 增加 
而 线性 增加 , 研究 基因 模型 有 助 于 寻找 有 效 的 关联 分 析 的 检验 统计 量 . 在 遗传 学 研 
究 中 , 上 述 4 种 模型 最 为 常见 , 虽然 其 他 模型 在 实际 问题 中 也 会 存在 , 如 过 显 性 模 
型 (over-dominance) 假设 杂 合 体 的 风险 大 于 其 他 两 个 纯 合 体 的 风险 , 但 通常 认为 这 
种 模型 实际 意义 不 大 而 不 予 考虑 . 


9.1.2 ”病例 对 照 设计 


人 类 遗传 疾病 的 基因 定位 研究 以 往 通 常 使 用 家 系数 据 基 础 上 的 连锁 分 析 方 法 ， 
对 简单 疾病 (又 称 为 单 基因 或 孟 德 尔 疾病 ) 是 一 种 有 效 的 方法 , 但 对 于 与 多 基因 有 
关 的 复杂 疾病 , 基于 群体 抽样 的 病例 对 照 设计 更 为 肥效 . 如 前 所 述 , 对 于 人 类 疾病 
的 遗传 学 研究 , 不 可 能 进行 人 工 干预 和 随机 化 试验 , 而 跟踪 队列 (cohort) 研究 因为 
花费 巨大 , 并 且 病 例 稀少 也 通常 不 被 采用 . 最 为 常用 的 抽样 方法 是 病例 -对 照 设 计 ， 
即 从 所 研究 疾病 的 患 病人 群 中 随机 抽取 若干 病人 , 并 抽取 数量 相当 的 正常 人 作为 对 
FR (control), 其 中 , 为 了 防止 其 他 与 疾病 可 能 有 关 的 因素 的 干扰 , 对 照 在 各 种 可 能 
的 混淆 因素 上 应 该 与 病例 组 尽 可 能 地 匹配 。 人 类 基因 研究 中 的 常见 的 混淆 因素 包 
括 种 族 、 年 龄 、 性 别 等 . 基于 病例 对 照 设计 的 关联 分 析 主 要 是 检验 基因 型 分 布 在 病 
例 组 和 对 照 组 是 否 有 差异 , 显著 性 的 不 同 则 可 能 表明 该 基因 与 疾病 有 关联 . 

对 病例 对 照 个 体 进行 DNA WE, 得 到 的 基因 型 数据 表示 如 表 9.1 所 示 , 其 
H, 对 应 于 基因 型 Go, G1, G2 (分 别 表示 基因 型 aa, Aa, AA) 分 别 有 (ro,ra,rz)， 


(so, sl, s2) 个 病例 和 对 照 . r = X mi s = > si, 具有 基因 型 G; 的 病例 对 照 总 


数 记 为 nj = ry + sj (0 = 01,2), n 为 样本 量 ， 根 据 抽样 的 特点 知道 ro,ri,rz) 和 
(so, $1, $2) 分 别 服从 多 项 分 布 M (r; po, p1, p2), M (s; qo, dl1; 92); 其 中 ， Pj = P(G;\case) 
和 qj = P(G;|control) 分 别 为 病例 组 和 对 照 组 的 基因 型 概率 分 布 . 按照 条 件 概 率 公 
式 ， 


piGilcase) = (enple) 
注意 到 P(case|G;) = P(Y = 1|G;) = fj, P(case) = P(Y = 1) = K, 于 是 得 到 


Pj= K’ J 1-K ° 


(9.1.5) 
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其 中 , gj = P(G;) 为 群体 中 基因 型 的 概率 . 式 (9.1.5) 经 常 被 用 来 在 模拟 中 产生 随 
机 数据 . 对 于 表 9.1, 病例 组 和 对 照 组 基因 型 分 布 的 齐 一 性 假设 为 


Ho: po= qo, Pl=U, P2=4.- (9.1.6) 


由 式 (9.1.5) 看 出 零 假设 (9.1.6) 等 价 于 前 面 提 到 的 所 关心 的 零 假设 (9.1.3) 或 假设 
(9.1.4), 即 疾病 与 基因 无 关联 . 后 面 的 各 种 检验 都 是 针对 于 这 个 零 假 设 的 . 


表 9.1 单位 点 病例 对 照 基 因 型 数据 


aa Aa AA 共计 
病例 组 ro rı r2 r 
对 照 组 50 81 82 8 
共计 no nı n2 n 


9.2 若干 基本 的 检验 


病例 对 照 数据 的 单位 点 关联 分 析 中 , Pearson 卡 方 检验 和 Cochran-Armitage 趋 
势 检 验 是 两 种 最 常用 的 检验 方法 (分 别 简称 为 Pearson 检验 和 趋势 检验 ). 趋势 检验 
适用 于 已 知 某 个 等 位 基因 是 风险 等 位 基因 , 即 三 个 基因 型 是 有 次 序 的 (ordinal) 情 
FE, 此 时 渗透 率 随 着 风险 等 位 基因 个 数 的 增加 而 增加 , 对 于 不 同 的 基因 模型 , 可 以 
定义 每 个 基因 型 对 应 的 计 分 (score), 并 使 用 相应 的 趋势 检验 进行 关联 分 析 研 究 . 当 
基因 模型 已 知 时 , 各 模型 存在 对 应 的 计 分 最 优 和 功效 最 优 的 趋势 检验 , 但 是 在 实际 
应 用 中 , 特别 是 一 些 复杂 的 疾病 中 , 基因 模型 通常 未 知 . 在 这 种 情况 下 , 如 果 使 用 
错误 的 基因 模型 对 应 的 趋势 检验 (特别 是 如 果 隐 性 模型 和 显 性 模型 相互 混淆 的 情 
Æ) 就 会 损失 功效 . 因此 , 趋势 检验 对 于 基因 模型 的 指定 不 是 稳健 型 的 检验 . 虽然 
Pearson 检验 是 一 个 稳健 的 检验 , 但 因为 它 不 依赖 于 基因 模型 , 所 以 在 功效 上 比 不 
上 最 优 的 趋势 检验 . 当 零 假设 成 立 的 时 候 , 趋势 检验 和 Pearson 检验 都 渐 近 地 服从 
卡 方 分 布 , 自由 度 分 别 为 1 和 2. 还 将 介绍 Hardy-Weinberg 不 平衡 检验 (HWDT), 
该 检验 最 初 由 Song 和 Elston (2006) 提出 , 并 用 于 检验 疾病 和 基因 型 的 相关 性 , 但 
后 面 将 主要 用 其 估计 基因 模型 . 上 述 三 种 方法 都 是 基于 基因 型 的 传统 检验 方法 , 另 
外 常用 的 还 有 一 种 基于 等 位 基因 的 (allele-based) 检验 方法 . 以 下 将 逐一 介绍 . 


1. Pearson 卡 方 检验 


Pearson 卡 方 检验 是 Pearson 提出 的 用 于 检验 样本 中 某 些 事件 发 生 的 概率 是 否 
服从 某 种 理论 分 布 的 检验 方法 . 对 于 一 般 的 Tx J 列 联 表 , Pearson 检验 可 以 表示 
成 


-— F.\2 
gay OA 
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其 中 , 0; 是 第 i 个 格子 观测 到 的 频数 , E 是 理论 频数 , 》、 对 所 有 的 格子 求 和 . 对 
于 表 9.1 中 的 病例 对 照 数据 , 相应 的 Pearson 检验 可 以 表示 为 
2 
Ty = > (ri — rni/n)? + (si — sni/n)* 一 smijn)? (9.2.1) 


4 rujna snifn 
W pi = ri/r, ĝi = si/s (i = 0,1,2) 为 病例 组 和 对 照 组 的 基因 频率 的 估计 &o=r/n 
为 病例 的 抽样 比例 . 在 零 假设 下 , Pi = qi = ri 的 估计 为 到 =mijm= ppi + (1 ~ OG, 
则 Pearson 检验 也 可 以 表示 为 
Han fee A — â)? f (D2 =) 


n To T 1 ia 


在 零 假设 下 , To 服从 一 个 自由 度 为 2 的 中 心 卡 方 分 布 . 当 对 立 假设 没有 任何 限制 的 
情况 下 , Pearson 卡 方 检验 是 ( 渐 近 ) 最 有 效 的 检验 . 

2. Cochran-Armitage 趋势 检验 

趋势 检验 是 Cochran (1954) 和 Armitage(1955) 提出 的 用 于 检验 有 序 分 类 数据 
相关 性 的 检验 . ER 9.1 的 病例 对 照 数据 中 , 如 果 疾 病 发 生 的 概率 随 着 基因 型 中 
的 风险 等 位 基因 个 数 的 增加 而 增加 , 那么 这 个 基因 型 就 是 有 序 的 . 趋势 检验 考虑 
了 这 种 “ 序 ” 的 信息 , 并 试图 用 来 提高 检验 的 功效 .假设 基因 型 G; 的 计 分 为 x; 
(j =0,1,2). 虽然 趋势 检验 依赖 于 计 分 (zo, zi,za) 的 选取 , 但 是 趋势 检验 对 于 计 分 
的 线性 变换 是 不 变 的 , 因此 , 为 统一 起 见 , 今后 基因 型 aa 和 AA 的 计 分 将 分 别 固定 
AO Al 1, 杂 合体 基因 型 Aa 的 积分 记 为 x, 即 假设 (z0, T1, T2) > = (0,z,1). 趋势 检 


验 通 过 比较 病例 组 的 平均 计 分 San, 和 对 照 组 的 平均 计 分 se 来 检验 零 假 
j=0 
设 . 令 
Uz = Sağ -ĝ;) = 3 (2 = =i) 
j=0 j=0 


因为 (rori; r2) 和 (so, s1, 82) 服从 多 项 分 布 , 计算 统计 量 U, 的 方差 , 并 将 pj, q; 用 
它们 在 零 假 设 下 的 共同 的 估计 a) = nj/n 代入 , 即 得 到 Vary, (Ur) 的 估计 


2 
2 2 
—. 1 2. h 
Varm, (Uz) == = {ie =. (S28) | 9 
j=0 j=0 


从 而 得 到 趋势 检验 
2 2 
v2 二 (Sue = 6)) 


~ F Uz E 2 3 2 . g” 
Var 11, ( ) 二 xf; d ( 过 zji) 
j=0 j=0 


(9.2.2) 
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在 Ho F, Tr 渐 近 服从 自由 度 为 1 的 卡 方 分 布 . 

计 分 的 选取 是 重要 的 , 但 也 是 困难 的 , 对 于 具有 两 个 等 位 基因 位 点 中 的 趋势 检 
验 问题 , 计 分 选取 在 文献 中 已 经 有 了 详尽 的 讨论 和 研究 . Zheng 等 (2003) 指出 了 
x 二 0,1 分 别 是 隐 性 模型 和 显 性 模型 下 趋势 检验 的 最 优 计 分 , z = 0.5 是 可 加 模型 下 
趋势 检验 的 局 部 最 优 计 分 . 当 位 点 上 的 等 位 基因 个 数 超过 2 时 ( 即 Multi-allelic 位 
点 ), 如 何 指定 计 分 将 变 得 比较 困难 . 另外 , 在 单 倍 体 (haplotype) 研究 中 也 存在 计 分 
选择 的 问题 . Graubard 和 Korn(1987) 给 出 了 选择 计 分 的 一 个 建议 , 这 个 建议 不 仅 
适用 于 基因 关联 分 析 , 也 适用 于 其 他 有 次 序列 联 表 的 显著 性 检验 问题 . D 如 果 列 联 
表 的 列 所 代表 的 分 类 变量 有 明确 的 实际 含义 , 则 应 该 利用 这 些 实际 含义 所 对 应 的 自 
然 次 序 作为 相应 计 分 ; @ 如 果 没 有 任何 预先 可 以 知道 的 关于 列 分 类 变量 的 信息 , 可 
以 采用 等 闻 距 的 计 分 ; @ 如 果 要 使 用 非 参数 意义 下 的 秩 作为 计 分 , 必须 谨慎 . 值得 
注意 的 是 , 当 将 对 应 于 基因 型 的 计 分 取 为 (ro/no,71/n1,72/n2) 时 , 即 由 数据 决定 ， 
那么 趋势 检验 就 是 前 面 介 绍 的 Pearson 卡 方 检验 (Zheng, et al., 2009). 该 事实 反映 
了 趋势 检验 和 稳健 的 Pearson 卡 方 检验 的 联系 , 但 这 种 由 数据 决定 计 分 (adaptive) 
的 方法 , 使 得 趋势 检验 失去 了 其 自由 度 小 且 功 效 较 大 的 优势 . 


3. Pearson 检验 、 趋 势 检验 与 logistic 回归 模型 的 关系 


对 于 表 9.1 中 的 数据 , 可 以 建立 logistic 回归 模型 , 并 求 出 相应 的 计 分 检验 . 前 
面 所 述 的 Pearson 检验 和 趋势 检验 分 别 是 某 种 logistice 回归 模型 的 计 分 检验 . 一 般 
地 , 对 于 正则 的 似 然 函 数 LO) (0 e 9), 定义 计 分 函数 (score function) 


BlogL(0 

U = u (0) = CELO 
和 观察 信息 阵 
ne 5000 i 


那么 零 假 设 Ho: 0E Go C 9 的 计 分 检验 定义 为 
x? = U (Ôo) I (Êo)U (60) 


其 中 , bo 是 零 假 设 约束 下 8 的 极 大 似 然 估计 . 在 Ho F, 当 样 本 量 趋 于 无 穷 时 , 该 检 
验 渐 近 服从 自由 度 为 k 的 卡 方 分 布 , 其 中 , 自由 度 大 = dim(@) — dim( eo), BUS 
设 对 参数 约束 的 个 数 . 

对 于 表 9.1 中 的 数据 , 自由 度 为 2 的 Pearson 检验 可 以 由 如 下 logistic 回归 模型 
的 计 分 检验 得 到 : 以 G 代表 基因 型 , 首先 定义 两 个 示 性 函数 z1 = 21 (G) = Ka=4a) 
和 z2 = z2(G) = Kec-=AA), 分 别 为 基因 型 Aa 和 AA 的 示 性 函数 , 并 建立 如 下 logistic 
He exp (ao + G121 + B222) 

x Biz1 z 
ol 1 十 = a + Biz hay 
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那么 基于 该 回归 模型 和 表 9.1 中 的 数据 , 可 以 写 出 似 然 函数 (Prentice and Pyke, 
1979) 


i a te, 
~ (1+ exp (a))"0(1 + exp (ay + 81))™ (1 + exp (a + B+ B2))’ 


其 中 , 9 = (a, fi, Bo)’. 容易 验证 , 零 假设 B81 = b = 0 的 计 分 检验 就 是 式 (9.2.1) 中 
的 Pearson 检验 . 

另 一 方面 , 如 果 考 虑 到 三 种 基因 型 的 风险 次 序 , 定义 一 个 计 分 变量 z = z(G)， 
X G = aa, AA, AA BY, z 分 别 取 值 0,z,1. 由 此 , 建立 得 logistic 回归 模型 


exp (a + Bz(G)) 
1+ exp (a+ 82z(G))’ 


L(6) 


Pr(case|G) = 


写 出 似 然 函 数 即 为 
L(0) = exp (ra + (ari + 72) 8) 


(1+ exp (a))™ (1 + exp (a + zB)™ (1 + exp (a + 8)” 


其 中 , 9 = (a,b). 按照 一 般 步 又 , 可 以 得 到 该 logistic 模型 的 零 假 设 Ho : 8 = 0 的 
计 分 检验 就 是 式 (9.2.2) 中 的 趋势 检验 Tr. 


4. Hardy-Weinberg 不 平衡 检验 


在 病例 对 照 数据 的 关联 分 析 中 , 病例 组 偏离 HWE 可 以 用 来 检验 疾病 是 否 与 基 
因 型 关联 . HWE 由 Hardy-Weinberg 不 平衡 (HWD) 系数 来 衡量 . 群体 中 的 HWD 
系数 一 般 定义 为 

A = Pr(AA) — {Pr(AA) + Pr(Aa)/2}?. (9.2.3) 
当 HWE 在 群体 中 成 立时 , A = 0. 类 似 地 , 可 以 定义 病例 组 和 对 照 组 中 的 HWD 系 
数 , 分 别 记 为 Ap = po 一 (pa 十 pi/2)2 和 Ay = qz 一 (q2 + gq1/2)?. 当 零 假设 成 立时 ， 
Ap = 4, = 4, 所 以 A, 和 A, 之 间 的 差异 可 以 用 来 检验 疾病 是 否 与 基因 型 关联 
(Zaykin and Nielsen, 2000; Wittke-Thompson, et al., 2005; Song and Elston, 2006). 
定义 HWD 检验 
rs (Ap — Aq)? 
n p?(1—p)? ’ 
FEH, Ap, Ay 分 别 为 病例 组 和 对 照 组 的 HWD 系数 的 估计 (用 Pi, gi 代替 pi, qi). 
Ê = (n2 + n1/2)/n = O(p2 + 1/2) + (一 由 (人 十 和 /2) X p = P(A) 在 零 假 设 下 的 
估计 . 当 零 假设 成 立 的 条 件 下 , Tuwo 渐 近 服从 自由 度 为 1 的 卡 方 分 布 . 

另外 一 种 常用 的 HWD 系数 定义 为 
_ 4P(AA)P(aa) 


A= — Paa '’ (9.2.5) 


THwD = (9.2.4) 
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病例 组 的 HWD 系数 A’, = (4p2po)/p?, 对 照 组 的 HWD 系数 为 Ag = (4q290)/g?， 
THwD = =; = At)", (9.2.6) 


其 中 , 估计 量 AL, Al, pg 与 前 面 的 定义 类 似 . 在 零 假 设 下 , A! 不 依赖 于 等 位 基因 频 
率 , 因此 , 对 于 分 层 数 据 , 在 HWD 系数 一 致 性 的 条 件 下 , 可 以 使 用 A’ 检验 HWE 
是 否 成 立 . 

HWD 检验 本 质 上 是 通过 检验 二 阶 等 位 基因 之 间 的 交互 作用 检验 关联 性 , 用 它 
来 检验 Ho 功效 通常 比较 低 , 特别 是 当真 正 的 模型 是 乘积 模型 (multiplicative model) 
时 , 该 检验 几乎 没有 功效 . 虽然 Tuwo 并 不 是 一 个 理想 的 相关 性 检验 的 统计 量 , 但 
是 它 可 以 用 来 进行 基因 型 数据 的 质量 控制 , 判断 存在 较 大 误差 的 基因 型 测量 值 . 另 
一 方面 , 基因 模型 实际 上 是 两 个 等 位 基因 之 间 的 二 阶 交互 作用 , 而 HWD 检验 度 
量 了 数据 偏离 乘积 或 可 加 模型 的 程度 , 因此 , 该 检验 可 以 用 来 判断 基因 模型 , 将 在 
稳健 方法 一 节 中 介绍 . 需要 说 明 的 是 , 通常 在 理想 的 假设 条 件 下 , 对 照 组 近似 满足 
HWE, 因而 只 使 用 病例 组 的 HWD 系数 也 能 用 来 构造 类 似 的 检验 . 

5. 等 位 基因 检验 

上 面 介绍 的 Pearson #134. Cochran-Armitage 趋势 检验 以 及 HWD 检验 都 是 
基于 基因 型 (genotype-based) 的 检验 . 基于 等 位 基因 (allele-based) 的 检验 与 可 加 
趋势 检验 接近 , 是 病例 对 黑 数 据 分 析 中 的 另外 一 类 应 用 广泛 的 检验 (Sasieni, 1997). 
与 基于 基因 型 数据 不 同 的 是 , 对 病例 和 对 照 组 中 的 等 位 基因 a 和 A 进行 计数 , 如 
表 9.2 所 示 . 


表 9.2 单位 点 病例 对 照 数据 的 等 位 基因 频数 


a A 共计 
病例 组 2r0 +11 2r2 十 71 27 
对 照 组 2so 十 sl 2s2 + 8) 2s 
共计 2no + ni 2n + nı 2n 


基于 等 位 基因 的 检验 比较 病例 组 和 对 照 组 中 等 位 基因 A 的 频率 , 分 别 记 为 pa 

和 ga, 则 基于 等 位 基因 的 检验 可 以 写成 
_ 2rs (pa — Ga)? 
ae” ET 
其 中 , pa = (r2 + 171/2)/r, ĝa = (82 + 81/2)/s, Ð = (na +1 /2)/n. 在 零 假设 成 立 的 

条 件 下 , Ta 渐 近 地 服从 自由 度 为 1 的 卡 方 分 布 . 

比较 Ta 和 可 加 Cochran-Armitage 趋势 检验 Tos, 可 以 看 出 两 者 都 是 比较 等 
位 基因 频率 在 病例 组 和 对 照 组 的 差异 , 区 别 在 于 它们 的 方差 略 有 不 同 . 经 过 简单 的 


(9.2.7) 


9.3 稳健 检验 “257 - 


计算 可 以 看 出 


dnon2 — n? E P2 — P? 
Ta = Tos fı + Tai + 2na) (ni + 2mo) + Znam Ti zy} = To.5 fı + ED \ š (9.2.8) 
其 中 , 5; = nj/n 为 合并 病例 对 照样 本 后 基因 型 概率 的 估计 . 容易 看 出 4non2 一 nf = 
0 和 po = (Po + 51/2)? 是 等 价 的 , 后 者 说 明了 HWE 在 合并 后 的 病例 对 照样 本 中 成 


立 , 而 在 HWE 成 立时 , PË = O(n), 因此 , 在 病例 对 照样 本 合并 的 群体 中 成 


立 HWE 时 , 基于 等 位 基因 的 检验 Ta 和 基于 基因 型 的 检验 Tos 是 渐 近 等 价 的 . A 
此 , 只 有 在 群体 中 的 HWE 律 成 立 的 前 提 下 , 基于 等 位 基因 的 检验 TABr 才 是 一 个 
有 效 的 检验 . 正 是 因为 两 者 在 零 假 设 下 方差 的 不 同 导致 了 在 对 立 假设 下 两 者 将 有 
不 同 的 检验 功效 . 但 由 于 两 者 的 差别 特别 小 (O(n-!) 的 阶 ), 所 以 在 生物 医学 的 基 
因 研 究 中 , 等 位 基因 检验 依然 被 广泛 应 用 ， 


9.3 稳健 检验 


已 经 知道 趋势 检验 依赖 于 预先 指定 的 计 分 (score), 不 同 的 基因 模型 对 应 于 不 
同 的 计 分 , 然而 在 基因 关联 分 析 中 基因 模型 通常 未 知 . 对 于 常见 的 4 种 基因 模型 : 
隐 性 模型 、 可 加 模型 、 乘 积 模型 和 显 性 模型 , 它们 相对 应 的 最 优 计 分 分 别 是 0, 0.5, 
0.5, 1. 当 指 定 的 计 分 对 应 于 真正 的 基因 模型 时 , 趋势 检验 才 是 功效 最 优 的 检验 . 由 
于 在 实际 应 用 中 , 真正 的 基因 模型 往往 未 知 , 所 以 用 错误 的 基因 模型 对 应 的 趋势 检 
验 进行 关联 分 析 研 究 就 会 降低 功效 . 特别 地 , 若 将 隐 性 模型 误 认为 是 显 性 模型 (或 
反 过 来 ), 功效 就 会 大 大 降低 . 考虑 到 这 些 原因 , 研究 对 于 基因 模型 选取 稳健 而 且 功 
效 较 大 的 检验 就 成 为 必然 (Gastwirth, 1966, 1985). 


9.3.1 MAX 类 型 检验 、 基 因 模 型 选择 及 其 他 方法 


常用 的 稳健 检验 方法 有 MAX 检验 、 基 于 基因 模型 选择 的 趋势 检验 以 及 其 他 
一 些 方法 . 
1. MAX 类 型 检验 


两 种 常用 的 稳健 型 检验 是 可 加 模型 对 应 的 趋势 检验 Tb.s 和 Pearson 卡 方 检验 ， 
它们 已 经 被 证 实 是 比较 稳健 且 容 易 实 现 的 检验 , 其 中 , 可 加 趋势 检验 Tos 在 可 加 或 
乘积 模型 下 最 有 效 . 因为 可 加 或 乘积 模型 可 以 认为 介 于 隐 性 和 显 性 模型 之 间 , 离 两 
者 都 不 太 远 , 所 以 可 加 趋势 检验 在 隐 性 和 显 性 模型 下 功效 表现 尚 可 , 比较 稳健 . 男 
Sb, Pearson 检验 因为 完全 不 考虑 基因 模型 (自由 度 为 2), 因而 是 最 稳健 的 , 但 其 功 
效 表现 在 某 些 模 型 下 可 能 会 比较 差 . 这 两 种 方法 识 优 熟 劣 , 或 者 说 , 在 何 种 情况 下 
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应 该 使 用 哪 一 个 应 该 视 具 体 情 况 而 定 . 例如 , 已 知 模型 是 或 者 接近 于 可 加 的 , 那么 
就 应 该 使 用 可 加 趋势 检验 , 而 如 果 对 基因 模型 完全 无 知 , 那么 使 用 Pearson 检验 就 
是 一 种 稳妥 的 做 法 . 

MAX 类 型 的 检验 是 另外 一 种 应 用 广泛 的 稳健 检验 ， 常 用 的 有 MAX2 检验 
(Matthews, et al., 2008) 和 MAX3 检验 (Zheng, et al., 2006). MAX2 是 显 性 和 
隐 性 模型 下 的 两 个 趋势 检验 的 最 大 值 , 而 MAX3 是 显 性 、 隐 性 和 可 加 模型 下 的 三 
个 趋势 检验 的 最 大 值 ， 


TMAxs2 = max{To, Tı}, Tmax3 = max{Tp,To.5,T1}. (9.3.1) 


关于 何 时 使 用 MAX2, 何 时 使 用 MAX3, 没有 一 个 确切 的 标准 . 通常 如 果 有 理由 认 
为 基因 作用 不 是 可 加 的 , 那么 可 以 使 用 MAX2; 否则 , 使 用 MAX3 是 一 种 更 稳健 的 
做 法 . 计算 机 模拟 和 实际 数据 分 析 都 表明 MAX 检验 具有 优良 性 质 , 在 很 多 情况 下 
其 , 功效 和 稳健 性 都 会 超过 前 述 的 两 种 稳健 检验 . 但 是 MAX 在 零 假 设 下 的 理论 分 
布 或 显著 性 度量 , 即 p 值 不 容易 求 出 , 并 且 MAX 检验 的 p 值 或 在 给 定 显著 性 水 
PP AYA (threshold) 依赖 于 群体 中 等 位 基因 的 概率 和 群体 发 病 率 等 参数 ， 本质 
上 ,MAX 类 型 的 检验 是 对 同一 批 数据 的 多 重 检验 , 如 果 不 经 调整 而 使 用 单个 检验 的 
BA (如 使 用 自由 度 为 1 的 卡 方 检验 的 95% 分 位 数 3.84), 其 I 型 错误 就 会 超过 设 
定 的 显著 性 水 平 人 们 通常 使 用 置换 方法 确定 MAX 检验 的 p (BRA, 但 这 通常 
需要 大 量 的 置换 和 计算 时 间 . 下 面 介 绍 一 种 基于 趋势 检验 渐 近 正 态 的 一 种 有 逼近 方 
法 . 在 式 (9.2.2) 中 , 记 Ts = Z2, 其 中 ， 

2 

2 2j(D — 45) 


Uz rs j=0 


在 零 假设 下 , 其 渐 近 分 布 为 标准 正 态 分 布 . Zheng 等 (2003) 计算 了 三 个 常用 趋势 
检验 Zo, Zos, 21 在 零 假 设 下 的 渐 近 协 方差 阵 Ls = (pra) ggz = 0,0.5,1, 其 中 ， 
pain = P22 = COIT Ho (Zr, Zz), 其 中 , pz,z =1, HA 


To(Tl + 272) 


P005 二 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ， 
Vro(l 一 To) y (m + 272)7o 十 (mı + 270)T2 


Tom 


PES Talm + 272) 
im VT2(1 一 T2)V(T1 十 27r2)To + (mı 十 2ro)r2 
其 中 , 10,71, 72 为 零 假设 下 基因 型 aa, Aa, AA 的 概率 . 那么 , MAX3 检验 的 a WE 
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Ca 可 由 下 式 决 定 : 
Ca Ca Ca 
1 - a = J / f 9 (t1, t2,t3)dtidt2dts, (9.3.2) 


其 中 , o5,(-) 是 正 态 分 布 Ns(0, 33) 的 密度 函数 ,了 sa 是 允 在 零 假 设 下 的 估计 (ni 
以 ii =ni/n RA). 类 似 地 , 对 于 给 定 的 由 样本 计算 而 得 的 MAX 检验 统计 量 m, 
其 了 值 可 由 下 式 计算 : 


m m m 
p=1- / / / $y, (tı, t2, t3)dtıdt2dt3. 
-m J-m J-m 


对 于 MAX2 检验 ， 只 需 将 上 面 的 三 元 正 态 密度 换 成 二 元 正 态 密 度 ， 协 方差 阵 为 
E = (Pz), £, T = 0,1. 

与 式 (9.3.2) 类 似 , González 等 (2008) 给 出 了 另外 一 种 MAX WA AEH IE 
ABADA, 他 们 考虑 的 是 基于 渐 近 等 价 于 Zo, Zos, 2 的 三 个 似 然 比 检验 的 MAX 
统计 量 . 另外 , Tian 等 (2009) 给 出 了 MAX2 和 MAX3 检验 的 精确 p 值 的 快速 算 
法 , 运算 速度 上 与 大 样本 逼近 方法 相差 不 大 , 但 比 置换 方法 有 了 大 幅度 的 提高 , 并 
且 给 出 的 p 值 是 精确 的 . 这 种 精确 检验 方法 尤其 适用 于 样本 量 较 小 而 且 结 果 特 别 
显著 (p 值 很 小 ) 的 情况 . 


2. 基因 模型 选择 


接 下 来 介绍 基于 基因 模型 选择 的 趋势 检验 , 也 可 以 认为 是 一 种 自 适应 的 稳健 方 
法 . 该 方法 利用 数据 首先 估计 出 基因 模型 , 然后 应 用 估计 出 的 模型 所 对 应 的 最 优 趋 
势 检验 . 因此 , 首先 要 寻找 一 个 可 以 估计 基因 模型 的 方法 . 

在 假设 群体 满足 HWE 条 件 下 , HR (9.1.5) 经 过 简单 计算 可 以 得 到 病例 组 和 
对 照 组 的 HWD 系数 可 以 表示 为 

r pe ee 2 42 

Ap = BEE (da AB), dy = dE (A = 1- Aa) + fola — A}, 
并 且 在 各 个 基因 模型 下 , HWD 系数 满足 如 下 关系 (Wittke-Thompson, et al., 2005): 
隐 性 模型 下 , A, > 0,A, < 0; 显 性 模型 下 , 4A。，< 0,A, > 0; 乘积 模型 下 ，4， = 
0,4, < 0; THWF, Ap < 0,4。< 0， 基 于 以 上 结论 可 以 知道 隐 性 模型 下 ， 
Ap — Aq > 0, 显 性 模型 下 , A, - Ay < 0. 另外 , 注意 到 在 乘积 模型 或 可 加 模型 下 ， 
Ap 和 A, 数值 都 很 小 , 所 以 当 A, - A, 在 零 附 近 时 , 有 理由 相信 模型 更 接近 于 乘 
积 或 可 加 模型 . 

这 一 性 质 说 明 可 以 用 HWD 系数 的 符号 来 估计 基因 模型 , + Tiwp = 28wb， 


其 中 ， 
_ frsAp—Ag 
ZHWD = \/ n BoB)’ (9.3.3) 


- 260 - 第 9 章 ”复杂 疾病 基因 的 统计 关联 分 析 


即 如 果 Zawp 为 正 值 较 大 , 如 当 Zawp < 一 co 时 , 就 判定 基因 模型 为 隐 性 模型 , 其 
中 , co 为 给 定 的 一 个 阀 值 , 当 Zawp 为 负 值 较 小 时 , 可 以 估计 基因 模型 为 显 性 模型 . 
在 其 他 情况 下 , 则 估计 基因 模型 为 可 加 模型 或 乘积 模型 ，Zheng 和 Ng (2008) 通过 
模拟 发 现 , 对 于 co = 1.645 (标准 正 态 分 布 的 95% 分 位 数 ), 当 群 体 中 风险 等 位 基因 
的 概率 大 于 0.3 时 , 该 方法 对 模型 有 比较 高 的 正确 判定 率 . 即使 当 风险 等 位 基因 的 
概率 较 小 时 , 将 显 性 模型 ( 隐 性 模型 ) 判定 为 隐 性 模型 ( 显 性 模型 ) 的 概率 是 很 低 
的 , 只 是 在 这 样 的 风险 等 位 基因 概率 下 会 有 较 多 的 显 性 或 者 隐 性 模型 被 判 为 可 加 模 
HET, 而 在 上 面 也 讨论 了 可 加 模型 对 应 的 趋势 检验 是 一 种 较 稳健 的 检验 , 所 以 这 
种 错 判 对 功效 影响 不 大 . 综 上 所 述 , Zawn 是 一 个 合理 而 有 效 的 选择 模型 工具 . 在 
利用 Zuwp 选择 好 模型 后 , 记 基因 模型 估计 所 对 应 的 计 分 为 £, 应 用 其 相应 的 最 优 
趋势 检验 Ta 即 可 . 在 显著 性 水 平 控制 在 a F, 该 检验 的 显著 性 可 由 置换 或 参数 型 
bootstrap 方法 确定 . 


3. 其 他 稳健 方法 


另外 一 类 稳健 的 方法 是 将 某 几 种 常用 的 检验 方法 结合 起 来 , 利用 它们 各 自 的 优 
势 构 造 新 的 检验 统计 量 . 需要 注意 的 是 所 有 的 稳健 检验 都 不 是 最 优 的 , 应 该 根据 具 
体 问题 选取 具体 的 方法 . 这 里 , 简单 介绍 一 下 其 他 几 种 稳健 的 统计 检验 方法 . 

在 零 假 设 成 立 的 条 件 下 , 可 加 趋势 检验 Tos 和 HWD 检验 Tuwo 是 渐 近 独立 
的 , 记 pi 和 po 分 别 为 它们 的 p 值 , 构造 新 的 统计 量 Trisher = —2 log pipz, 则 Trisher 
在 零 假 设 下 服从 自由 度 为 4 的 卡 方 分 布 . 这 就 是 著名 的 Fisher's combination 方法 . 
当然 也 可 以 将 可 加 模型 趋势 检验 的 p 值 和 Pearson 检验 统计 量 的 p 值 用 类 似 的 方 
法 结合 起 来 构造 新 的 检验 统计 量 , 但 是 在 零 假 设 之 下 的 渐 近 分 布 渐 近 分 布 就 变 得 
复杂 , 不 再 是 一 个 自由 度 为 4 的 卡 方 分 布 了 , 原因 是 结合 的 两 个 统计 量 不 再 是 渐 
近 独 立 的 了 . Zheng 等 (2008) 提出 了 一 种 两 阶段 (two-phase) 方法 , 该 方法 综合 了 
Pearson 检验 和 可 加 趋势 检验 的 优势 , 同样 具有 较 好 的 稳健 性 和 功效 . 

在 这 里 强调 零 假 设 之 下 的 分 布 是 为 了 便于 求 给 定 显著 性 水 平 下 的 阀 值 , 从 而 计 
算 对 立 假设 下 的 功效 . 在 实际 应 用 中 , 很 多 检验 统计 量 的 零 分 布 并 不 能 求 出 显 式 ， 
即使 是 近似 的 也 很 难 求 出 , 这 时 可 以 使 用 自助 法 或 者 置换 等 方法 求 出 闭 值 或 p 值 . 


9.3.2 ”一 个 例子 


在 实际 数据 的 统计 分 析 中 , 由 于 群体 疾病 流行 率 、 基 因 模 型 等 参数 都 无 从 知道 ， 
选取 哪 种 检验 方法 应 根据 具体 情况 而 定 . 如 果 基 因 模 型 已 知 , 那么 应 该 使 用 对 应 的 
最 优 趋势 检验 ; 如 果 基 因 模型 完全 未 知 , 那么 应 该 使 用 Pearson 检验 、 等 位 基因 检验 
或 可 加 趋势 检验 ; 如 果 认 为 基因 模型 限于 显 性 、 隐 性 、 可 加 或 乘积 模型 , 那么 MAX 
类 型 检验 是 一 个 稳健 且 有 效 的 检验 方法 , 也 可 以 使 用 基因 模型 选择 方法 , 但 该 检验 
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方法 的 表现 依赖 于 模型 选择 准则 的 确定 . 

研究 一 个 具有 两 个 等 位 基因 A, a 的 位 点 , 假设 P(A) = 0.25, 真正 的 基因 模型 
为 隐 性 模型 , AA 的 相对 风险 Xz = 1.350. 在 上 述 模型 下 , 模拟 了 500 个 病例 , 500 
个 对 照 、 基 因 型 数据 整理 在 表 9.3 中 . 对 于 表 9.3 中 的 数据 ， 分 别 计 算 Pearson 卡 
方 检验 、 三 个 趋势 检验 、HWD 检验 、 等 位 基因 检验 、MAX3 检验 和 基因 模型 选择 
方法 , 将 统计 量 的 值 和 相应 的 p 值 汇总 在 表 9.4 中 . 


表 9.3” 隐 性 模型 下 的 模拟 数据 


aa Aa AA 总 计 

病例 165 237 98 500 

对 照 181 249 70 500 
总 计 346 486 168 1000 

表 9.4 

卡 方 统计 量 自由 度 p ffi 

Pearson 检验 5.703 2 0.058 

隐 性 趋势 检验 5.609 1 0.018 

可 加 趋势 检验 4.014 1 0.045 

显 性 趋势 检验 1.131 1 0.287 

HWD 检验 1.678 1 0.093 

等 位 基因 检验 4.014 1 0.045 
MAX2 检验 5.609 一 0.035 ® 
MAX3 检验 5.609 一 0.040 ® 

模型 选择 方法 © 4.014 = 0.041 


¥E: © MAX2 精确 p 值 为 0.041; © MAX3 精确 p (HH 0.044; © Zywp = 1.295, co = 1, 模型 选 
择 为 隐 性 模型 . 


可 以 看 到 , 隐 性 趋势 检验 最 显著 , 这 与 真实 模型 为 隐 性 是 一 致 的 . 在 显著 性 水 
平 为 0.05 If, Pearson 检验 、 显 性 趋势 检验 和 HWD 检验 都 不 显著 , 隐 性 和 可 加 趋 
势 检验 都 显著 , 等 位 基因 检验 和 可 加 趋势 检验 结果 几乎 一 致 . 如 前 所 述 , 因为 在 实 
际 问 题 中 , 通常 不 知道 真正 的 基因 模型 , 所 以 考虑 模型 稳健 方法 . 从 表 9.4 可 以 看 
出 MAX2,MAX3 检验 的 基于 大 样本 逼近 的 p 值 分 别 是 0.035 和 0.040( 精 确 的 p fH 
分 别 为 0.041 和 0.044), ABEL Pearson 检验 的 结果 显著 . 虽然 HWD 检验 用 于 检验 
关联 性 的 效果 并 不 理想 , 但 是 在 取 co = 1.645 时 , 即便 是 用 它 估计 模型 得 到 的 是 可 
加 模型 , 其 精确 p 值 为 0.040, 显著 性 结果 与 MAX3 类 似 . 需要 说 明 的 是 , co 的 不 同 
选取 可 能 导致 不 同 的 结果 , 如 当 co = 1 时 , 模型 被 选择 为 隐 性 模型 , 此 时 的 p 值 为 
0.016. 结果 非常 显著 , 接近 与 最 优 的 隐 性 趋势 检验 的 结果 (后 者 的 精确 p 值 实际 上 
为 0.014, X 9.4 中 p = 0.018 是 基于 卡 方 逼 近 得 到 的 ), 所 以 虽然 模型 选择 方法 在 很 
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多 情形 下 优 于 MAX3, 但 由 于 co 选取 的 不 确定 性 , 所 以 在 实际 应 用 中 , 人 们 通常 更 
倾向 于 使 用 MAX 型 的 检验 . 


9.4 “匹配 数据 的 关联 分 析 


群体 分 层 (population stratification) 是 基因 关联 分 析 中 常见 的 一 个 现象 . 在 病 
例 对 照 数据 关联 分 析 中 , 疾病 与 基因 型 之 间 的 关联 与 否 往往 会 受到 一 些 潜 在 的 混淆 
变量 (confounding) 的 影响 , 如 年 龄 、 种 族 背 景 、 性 别 等 . 即使 基因 型 与 疾病 没有 关 
联 , 但 是 未 观测 或 记录 的 混淆 因素 在 两 组 之 间 分 布 的 不 同 , 可 能 会 导致 基因 型 分 布 
在 两 组 之 间 看 起 来 不 同 . 如 果 在 关联 分 析 时 忽略 了 混淆 因素 的 影响 , 得 到 的 关联 分 
析 结 果 就 会 出 现 偏差 . 在 病例 对 照 设计 研究 中 , 因为 不 可 能 随机 化 , 研究 设计 者 需 
要 尽量 控制 所 有 可 能 的 泥 淆 变量 , 使 得 它们 在 两 组 之 间 保 持 一 致 . 如 果 一 般 的 病例 
对 照 设 计 难 以 做 到 这 一 点 , 则 需要 考虑 更 为 精细 的 匹配 (matching). 

匹配 的 病例 对 照 (matched case-control) 设计 是 一 种 常用 的 控制 混淆 因素 的 方 
法 (Breslow and Day, 1980)， 一 个 关于 某 些 变量 的 匹配 中 的 病例 与 对 照 构成 一 个 
B, 它们 有 共同 的 匹配 变量 . 常见 的 一 种 匹配 是 一 个 病例 和 m 个 对 照 进行 匹配 , 称 
为 1:m 匹配 , 即 对 于 每 一 个 病例 , 在 可 能 的 混淆 变量 上 尽量 寻找 m 个 对 照 尽 量 进 
行 匹配 , 是 应 用 最 广泛 的 一 种 匹配 设计 . 特别 地 , 1:1 匹配 称 为 配对 设计 (matched 
pair), 应 用 尤为 广泛 . 当 匹 配 的 变量 与 疾病 和 基因 位 点 都 相关 联 时 , 匹配 设计 提供 
了 一 种 能 有 效 控制 混淆 因素 的 方法 . 因此 , 在 存在 混淆 因素 的 情况 下 , 匹配 的 病例 
对 照 设 计 能 帮助 我 们 检验 出 真实 的 疾病 和 基因 型 的 关联 性 . 

对 于 配对 数据 , McNemar 检验 是 常用 的 方法 (McNemar, 1947), 用 于 检验 配对 
的 2 x 2 表 的 行 和 列 是 否 具有 相同 的 边际 概率 的 统计 方法 .对 于 每 一 对 病例 和 对 
照 , 测量 其 某 种 指标 (如 基因 风险 或 其 他 风险 因素 水 平 , 这 里 假设 风险 因素 只 有 0, 
1 两 个 水 平 ), 数据 整理 在 表 9.5 中 . 记 病 例 指标 为 i, 其 配对 的 对 照 为 7 的 概率 为 
pli j = 0,1). 病例 和 对 照 在 该 风险 因素 上 没有 差异 ( 即 该 风险 与 疾病 没 关 联 ) 意 
味 着 行 和 列 的 边际 概率 相同 , 即 要 检验 零 假 设 pi + pio = pir + por, 即 对 称 性 假设 
Pio = por 是 否 成 立 . McNemar(1947) 提出 用 以 下 统计 量 作 为 检验 统计 量 : 
(6-0)? 

b+c ` 

在 零 假设 下 , T 服从 自由 度 为 1 的 卡 方 分 布 . 可 以 看 出 风险 因素 无 差异 的 对 的 计数 
a d 对 于 检验 没有 贡献 . 对 于 一 般 的 m, 1:m 匹配 数据 的 检验 方法 与 McNemar 检 
验 类 似 , 通用 的 检验 方法 是 条 件 logistic 回归 的 计 分 检验 , 或 分 层 数据 的 Cochran- 
Mantel-Haenszel 方法 , 当 m = 1 IN, 即 为 McNemar 检验 (Breslow and Day, 1980). 


Tm = 


(9.4.1) 


9.4 匹配 数据 的 关联 分 析 - 263 . 


表 9.5 2 x 2 配对 数据 


HA 共计 
1 0 
病例 1 a b a+b 
0 c d c+d 
共计 a+c b+d a+b+c+d 


由 于 基因 数据 的 特殊 性 , 对 于 配对 的 病例 对 照 基 因数 据 , 近 几 年 的 文献 中 提出 
了 若干 方法 , 较为 典型 的 有 Lee(2004) 提出 的 配对 的 趋势 检验 、Zheng 和 Tian (2006) 
提出 的 稳健 检验 、Zhang 等 (2006) 提出 的 单 倍 体 中 的 基因 关联 分 析 、Zheng 和 Tian 
(2006) 研究 的 匹配 设计 下 的 稳健 检验 方法 等 .下面 假 设 共 有 n 个 匹配 或 层 , 每 个 
层 都 按照 变量 z; ( = 1 ,n) 匹配 . 类 似 于 一 般 的 病例 对 照 数据 , 假设 等 位 基因 
为 a, A, 并 且 A 是 风险 基因 , 基因 型 为 Go = aa, Gi = Aa, G = AA. 给 每 一 
层 定义 群体 流行 率 kj = Pr(case|z;), 疾病 渗透 率 f;; = Pr(case|Gi, zj), 相对 风险 
Aij = fi;/fo; 和 Az; = f2j/ foj, pij = Pr(Gilcase, z;), qij = Pr(Gilcontrol, z;) 以 及 
gij = Pr(Gi|z;) (i = 0,1,2, j =1,--- ,n). 


1. Cochran-Mantel-Haenszel 检验 


利用 分 层 数据 的 Cochran-Mantel-Haenszel(CMH) 检验 的 思想 , 构造 匹配 数据 
的 卡 方 检验 . 假设 第 i 个 层 ( 即 匹配 ) 中 s; 个 对 照 与 7; 个 病例 匹配 , 共有 ni = si 十 mi 
个 个 体 . 数据 整理 在 一 个 2 x 3 表格 中 , (rio, rin, ri) 和 (sio, sil, si2) 分 别 为 第 i 层 中 
病例 组 和 对 照 组 对 于 三 组 基因 型 的 计数 , 其 中 , ri = rio trian triz si = Si0 十 Sil 十 5i2. 
nj = rij + sij, 那么 匹配 数据 的 CMH 卡 方 检验 有 如 下 形式 : 


n T n 一 1 n 
了 TCMH = (Za) (> v:) (da). (9.4.2) 
i=l i=l i=l 
其 中 ， 
TiTil 
d = Til 一 ni TY = TiSi 741 (m — nir) —ny Nie 
i Ti2 一 = i n? (ni iit 1) — Til Tli? nio(n = ni2) 


该 检验 可 以 看 成 是 Pearson 检验 在 匹配 情形 下 的 对 应 形式 . 在 零 假设 成 立 的 
条 件 下 , 该 检验 服从 自由 度 为 2 的 卡 方 分 布 . 


2. 匹配 数据 的 趋势 检验 


如 前 所 述 , CMH 检验 没有 考虑 基因 模型 . 通常 基因 型 被 认为 是 有 次 序 的 , 如 同 
前 面 的 Cochran-Armitage 趋势 检验 一 样 , 也 可 以 考虑 进 基 因 型 的 次 序 , 从 而 得 到 自 
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由 度 为 1 的 卡 方 检验 . 下 面 仅 介绍 1:m 匹配 的 情形 ( 即 7; = 1 si =m) 对 于 第 i 
个 层 , 记 zx1; 为 病例 的 基因 型 对 应 的 计 分 , z2i; 为 对 照 组 中 第 7 个 个 体 的 基因 型 对 
应 的 计 分 , i = 1,… ,n, 7 =1,---,m. 所 有 的 计 分 都 取 值 于 {0,2,1}, x 的 取 值 依赖 
于 潜在 的 基因 模型 , z = 0,1/2,1 分 别 对 应 于 隐 性 模型 、 可 加 模型 和 显 性 模型 . 考虑 
以 下 的 条 件 logistic 回归 模型 (Zheng and Tian, 2006): 


TL 


exp (Bz1i) 


L(A\z) = | | ————_ (9.4.3) 
i=1 exp (B71i) 4 2. exp (822i; ) 
关于 零 假设 Ho: 8 = 0 的 计 分 检验 即 为 1 : m 匹配 设计 下 的 趋势 检验 
2 
È (meri = > =) 
ae (9.4.4) 


= =a.) ye | ep NS 
D {+ m) (zh+ > agy) — (za+2 zou) } 
i=l j=1 j=1 


Ts 在 Ho 成 立时 服从 自由 度 为 1 的 卡 方 分 布 . 

类 似 于 一 般 的 病例 对 照 设计 , 也 可 以 考虑 匹配 设计 数据 的 稳健 检验 . Zheng 和 
Tian (2006) 研究 了 基于 趋势 检验 的 稳健 MAX3 检验 , 即 Taxa = max{Tg, Ts: Ti}, 
结果 表明 MAX3 检验 在 常见 基因 模型 下 相对 于 CMH 检验 有 较 好 的 功效 表现 , 并 
且 对 于 基因 模型 指定 是 稳健 的 . 该 检验 的 p 值 可 由 TS. Tis TY 的 渐 近 联合 正 态 性 
(Zheng and Tian, 2006) 计算 得 到 , 也 可 由 置换 方法 得 到 , 但 需要 注意 置换 需要 在 层 
内 进行 以 免 置换 打 乱 匹配 结构 . 类 似 于 前 面 对 于 一 般 的 病例 对 照 设计 , 也 可 以 类 似 
地 定义 HWD 检验 , 由 此 选择 基因 模型 并 使 用 相应 的 最 优 趋势 检验 . 对 于 MAX3 检 
验 和 模型 选择 方法 在 此 不 多 介绍 , 感 兴趣 的 读者 可 参见 文献 (Zheng and Tian, 2006; 
Yuan, et al., 2009). 


3. 实例 分 析 


ACCESS 是 由 1999 年 美国 NIH 赞助 研究 的 关于 肉 状 瘤 病 (sarcoidosis) 的 配 
对 病例 对 照 研究 . 这 个 研究 收集 了 10 个 医学 中 心 按照 年 龄 、 种 族 (Caucasian 与 
African-American 以 及 其 他 ) 和 性 别 配对 的 病例 对 照 数 据 ， 在 本 例 中 , 对 219 个 
African-American 病例 对 照 对 (pair) 进行 研究 , 其 中 , 一 个 候选 基因 为 KM(1,3) 多 
态 性 , 数据 如 表 9.6 所 示 . 两 个 等 位 基因 记 为 数字 1 和 3. 对 于 表 9.6 中 的 数据 ， 
计算 配对 数据 的 自由 度 为 2 的 卡 方 检验 Tomun, 三 种 常见 模型 下 的 趋势 检验 以 及 
MAX3 检验 以 及 相应 的 p 值 . p 值 是 利用 置换 的 方法 得 到 的 , CMH 检验 的 p 值 为 
0.0638, 在 0.05 显著 性 水 平 下 不 显著 . 假设 等 位 基因 “1” 是 风险 基因 , 则 不 同 基因 
模型 下 的 配对 的 趋势 检验 分 别 如 下 : D 隐 性 模型 TF = 1.897 (p = 0.058); © 可 加 
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模型 Tz, = 2.857 (p = 0.004); @ 显 性 模型 T? = 1.826 (p =0.068). 注意 这 里 因为 
不 知道 风险 基因 , 所 有 的 趋势 检验 的 p ART AF 2. 从 计算 的 结果 来 看 , 只 有 
在 可 加 模型 下 才 是 显著 的 , 但 因为 不 知道 确切 的 基因 模型 , 因而 需要 校正 三 个 多 重 
检验 引起 的 I 型 错误 的 增加 . 如 果 使 用 Bonferroni 校正 方法 , 那么 校正 后 的 p 值 分 
别 为 0.173, 0.012, 0.203, 其 中 , 可 加 模型 下 的 趋势 检验 仍 在 0.05 显著 水 平 下 是 显著 
的 , 但 在 0.01 水 平 下 该 基因 不 显著 . 注意 到 Bonferroni 方法 常常 过 度 保守 (因为 三 
个 检验 是 相关 的 ), 所 以 使 用 MAX3 检验 , MAX3 = 2.857, 其 p 值 为 0.006, 所 以 即 
使 在 0.01 水 平 下 , 该 基因 与 疾病 也 是 显著 关联 的 . 


表 9.6 ACCESS 数据 (219 对 ) 


对 照 
33 31 11 总 数 
33 35 45 5 85 
病例 31 57 40 9 106 
11 13 13 2 28 
总 数 105 98 16 219 
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第 10 章 “生物 医学 等 价 性 评价 问题 的 统计 推断 


随 着 社会 经 济 的 快速 发 展 和 社会 竞争 的 日 益 激烈 , 一 些 新 的 医疗 技术 或 药品 不 
断 涌 现 . 一 般 来 说 , 新 的 医疗 技术 或 药品 必须 具有 一 些 目 前 广 为 使 用 的 医疗 技术 或 
药品 所 没有 的 特点 , 或 比 它们 有 更 多 的 优点 , 如 无 副作用 、 价 格 便宜 、 容 易 操 作 等 ， 
否则 , 它们 很 难 在 激烈 竞争 中 得 以 推广 使 用 . 对 这 些 问 题 人 们 关心 的 是 : 这 些 新 
的 医疗 技术 或 药品 是 否 与 目前 广 为 使 用 的 医疗 技术 或 药品 有 一 样 的 效果 呢 ? 为 了 
回答 这 个 问题 , 国内 外 众多 研究 者 都 为 此 做 了 大 量 卓 有 成 效 的 工作 . 这 些 研究 工作 
大 体 都 基于 @ 两 个 独立 二 项 分 布 ; @ 配对 试验 设计 ; @) 多 中 心 试验 设计 等 来 讨论 
有 关 的 等 价 性 评价 问题 的 . 这 类 问题 可 通过 所 谓 的 2 x 2 列 联 表 或 多 个 2 x 2 列 联 
表 的 理论 和 方法 来 解决 . 

在 一 些 流 行 病 学 研究 中 , 人 们 也 常常 想 知 道 : 得 过 某 种 疾病 的 人 或 动物 等 (如 
SARS) 是 否 对 该 疾病 有 一 定 的 免疫 力 ? 也 就 是 说 , 没有 得 过 SARS 的 人 是 否 比 得 过 
SARS 的 人 更 容易 感染 SARS 病毒 ? 在 医院 里 , 常常 听见 医生 说 : 某 疑 似 病 人 ( 初 
诊 结果 为 阳性 ) 还 需要 进一步 的 确诊 ( 即 通过 某 种 特殊 医疗 设备 的 检验 ) 才能 知道 
他 /她 是 和 否 犯 有 某 种 疾病 . 人 们 自然 想 知道 : 初诊 结果 为 阳性 的 概率 是 否 与 已 知 初 
诊 结果 为 阳性 的 条 件 下 第 二 次 诊断 仍 为 阴性 的 概率 一 样 ? 如 果 二 者 一 样 , 则 说 明 该 
医生 的 初诊 结果 是 很 满意 的 , 即 说 明 该 医生 有 很 高 的 医术 水 平 . 这 类 问题 可 通过 将 
这 些 研究 数据 概括 在 一 个 所 谓 的 带 有 结构 零 的 2 x 2 列 联 表 中 借助 于 统计 学 中 的 
有 关 理 论 和 方法 来 解决 . 

在 眼科 手术 成 功 实 验 研究 中 , 有 些 病 人 的 眼睛 里 含有 洲 出 物 , 有 些 病 人 的 眼睛 
里 没有 溢出 物 , 含有 溢出 物 的 病人 的 眼科 手术 的 难度 显然 比 没有 洲 出 物 的 眼科 手术 
的 难度 大 . 在 这 类 问题 研究 中 ,人 们 自然 想 知道 : 某 一 医院 的 医生 对 这 两 种 病人 的 
眼科 手术 的 成 功率 是 否 是 一 样 的 ? 如 果 其 成 功率 是 一 样 的 , 则 眼睛 中 含有 溢出 物 的 
病人 也 会 选择 在 这 一 医院 做 眼科 手术 . 这 类 问题 可 以 通过 所 谓 的 3 x 2 列 联 表 的 理 
论 和 方法 来 处 理 . 

本 章 将 基于 上 面 的 问题 从 列 联 表 的 角度 来 分 析 和 讨论 其 统计 推断 问题 . 这 些 问 
题 是 目前 国内 外 生物 医学 等 价 性 评价 研究 中 的 热点 问题 . 


本 章 作 者 : FE, 云南 大 学 教授 ; FAC, 云南 大 学 教授 . 
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10.1 基于 2 x 2 列 联 表 的 等 价 性 评价 问题 


10.1.1 ”基于 两 个 独立 二 项 分 布 的 等 价 性 评价 问题 


假设 用 随机 变量 X 表示 治疗 某 种 疾病 的 标准 处 理 方法 的 治疗 效果 , 而 用 随机 
变量 Y 表示 治疗 该 种 疾病 的 某 一 新 的 处 理 方法 的 治疗 效果 . 今 假设 从 研究 病人 中 
随机 抽取 m 和 mn 个 病人 分 别 用 标准 处 理 方法 和 新 处 理 方法 来 治疗 其 疾病 , 并 假定 
用 标准 处 理 方法 治疗 某 人 的 疾病 的 治愈 率 为 pz, 而 用 新 处 理 方法 治疗 其 疾病 的 治 
RAEN py, WX 可 以 看 成 服从 二 项 分 布 B(m, pz) 的 随机 变量 , 而 Y 可 看 成 服从 二 
项 分 布 B(n, py) 的 随机 变量 . 上 述 问题 可 以 表示 为 下 面 的 2 x 2 列 联 表 ( 表 10.1). 


表 10.1 
标准 处 理 方法 (X) 新 处 理 方法 (Y) 
有 效果 «(px) y(Py) 
没有 效果 m — (1.0 ~ pr) n — y(1.0 — py) 
m(1.0) n(1.0) 


表 中 , oc My 分 别 为 随机 变量 X ALY 的 观测 值 . 在 流行 病 学 研究 中 , 人 们 常常 
将 :pe 和 py 分 别 看 成 是 使 用 标准 处 理 方法 和 新 处 理 方法 治疗 某 种 疾病 的 风险 . 这 
里 有 三 个 常用 的 统计 量 ， 

(1) 风险 差 (risk difference): RD = py — pz; 

(2) 风险 比 (risk ratio): RR = py/pz; 


n f z(1.0 — py) 
3) HELE (odds ratio): OR = Pz(1.0 — Py) 
(©) ABE (oe rss OR = BB 
许多 统计 教材 (WEAF, 1997; Dixon and Massey, 1969; Hoel, 1971; Mendenhall, 


1975; Fleiss, 1981) 都 讨论 了 假设 检验 问题 
Ho: RD =0 e H,: RD #0, (10.1.1) 


并 提出 了 各 种 不 同 的 检验 统计 量 . Fisher (1935) 在 假设 x+y, n, m AUK n+m—r-y 
都 固定 的 情况 下 , 给 出 了 检验 假设 Ho 的 精确 条 件 检验 方法 , 其 中 ,“ 精 确 条 件 ” 的 
意思 是 指 在 假设 所 有 的 边界 和 都 事先 固定 的 情况 下 , 能 导出 其 格子 x 的 分 布 , 并 且 
不 需要 估计 未 知 参数 . 正如 Yates (1934) 指出 的 , Fisher 精确 检验 不 仅 计 算 量 很 大 ， 
而 且 还 很 保守 . 为 此 , Yates (1934) 提出 了 修正 的 x? 检验 统计 量 . Barnard (1947) 和 
Pearson (1947) 认为 Fisher 精确 检验 在 齐 性 情况 是 无 效 的 . Tocher (1950) 在 不 固定 
边界 和 的 情况 下 提出 了 一 个 修正 的 Fisher 检验 一 一 随机 化 检验 , 他 认为 该 检验 能 
达到 真实 的 检验 水 平 . 但 Mantel 和 Greenhouse (1968) 认为 人 们 很 难 实现 这 一 过 
程 . 之 后 , Boschloo (1970) 和 Garside (1971) 对 齐 性 的 情况 给 出 了 检验 的 校正 表 , 并 


10.1 基于 2 x 2 列 联 表 的 等 价 性 评价 问题 - 269 . 


指出 他 们 的 检验 能 很 好 地 达到 了 事先 给 定 的 检验 水 平 , 而 且 比 Fisher 和 Yates 的 
检验 都 好 (这 一 论断 后 来 被 Garside 和 Mack(1976) IRATUS). Eberhardt 和 
Fligner (1977) 根据 渐 近 效率 比较 了 检验 假设 (10.1.1) 的 基于 约束 Wald 型 检验 统 
计量 和 非 约 束 Wald 型 检验 统计 量 的 大 样本 性 质 .D'Agostino (1988) 指出 当 n 
和 m 较 小 时 , 无 论 是 Fisher 精确 检验 还 是 Yates 的 修正 x? 检验 都 太保 守 , 他 们 提 
出 用 Pearson x? 检验 统计 量 的 学 生化 形式 检验 假设 (10.1.1), 他 们 的 经 验 结果 表明 
该 检验 在 重复 product-binomial 抽样 下 能 很 好 地 控制 犯 第 一 类 错误 的 概率 . 但 是 ， 
他 们 忽略 了 如 下 问题 : © 分 析 基 于 离散 数据 的 检验 性 质 ; @ 是 否 应 该 在 固定 一 个 
或 两 个 边界 的 条 件 下 计算 经 验 水 平 . 为 了 解决 这 一 问题 , Little (1989) 基于 辅助 统 
计量 讨论 了 其 Bayesian 检验 ， 此 外 ,Suissa 和 Shuster (1985) 还 从 小 样本 的 角度 
提出 了 检验 假设 问题 (10.1.1) 的 精确 非 条 件 方法 . Haber (1987) 比较 了 条 件 和 非 条 
件 精 确 检 验 的 优 劣 性 ，Hirji (1991) 提出 了 检验 假设 (10.1.1) 的 拟 (quasi) 精确 
检验 , 并 给 出 了 其 算法 . Andres 和 Tejedor (1995) 还 比较 了 Fisher 精确 条 件 检验 ， 
Barnard (1947) 非 条 件 检验 与 McDonald 等 (1977) 的 非 随 机 非 条 件 检验 的 功效 , 其 
研究 结果 表明 在 大 多 数 情况 下 , Fisher 精确 检验 功效 是 可 以 接受 的 . Yang 等 (2004) 
证 明了 假设 检验 问题 (10.1.1) 的 Mid-p HE m =n 时 与 期 望 p 值 是 一 样 的 . 尽管 
假设 检验 问题 (10.1.1) 看 起 来 很 简 单 , 但 有 关 该 假设 的 Fisher 精确 检验 问题 直到 今 
天 还 是 统计 学 界 争 论 的 热点 和 焦点 问题 (Mehrotra, et al. 2003; Crans and Shuster， 
2008; van der Meulen, 2008). 最 近 , 韦 博 成 (2009) 还 基于 上 面 提 到 的 这 些 检验 统计 
量 研 究 了 红楼 梦 的 前 80 回 与 后 40 回 是 否 出 自 同一 作者 等 问题 . 

许多 统计 学 者 还 考虑 了 RD 的 置信 区 间 问 题 . 例如 , McDonald 等 (1974) 对 小 
样本 的 情况 给 出 了 RD 的 置信 区 间 的 构造 方法 .Santner 和 Snell (1980) 从 小 样本 
的 角度 给 出 了 找 RD 的 置信 区 间 的 精确 方法 . Thomas 和 Gart (1977) 提供 了 可 供 
实际 应 用 人 员 查 询 的 RD 精确 置信 限 表 . Anbar (1983) 基于 大 样本 理论 构造 了 RD 
的 置信 区 间 , 并 将 该 置信 区 间 与 基于 精确 分 布 的 置信 区 间作 了 比较 研究 , 其 研究 结 
果 表 明 前 者 无 论 是 在 理论 上 还 是 在 实用 上 都 优 于 后 者 . 但 Mec (1984) 指出 , Anbar 
的 置信 区 间 是 RD 和 p, 的 函数 , 因此 , 它 也 可 以 是 RD 和 p: 的 函数 , 而 且 这 两 个 
置信 区 间 是 不 一 样 的 .于 是 , Mee (1984) 基于 参数 py 和 pe 的 极 大 似 然 估 计 给 出 
T RD 的 Anbar 的 修正 的 置信 区 间 . Hauck 和 Anderson (1986) 借助 模拟 研究 比 
BET RD 的 基于 正 态 近似 的 7 个 置信 区 间 的 覆盖 概率 和 置信 区 间 的 宽度 , 他 们 的 
研究 发 现 基于 最 小 样本 量 的 连续 校正 置信 区 间 优 于 Yates 置信 区 间 . Miettinen 和 
Nurminen (1985) 在 给 定 py 一 pz 的 任意 值 的 条 件 下 构造 了 一 个 类 似 于 Mee (1984) 
的 置信 区 间 , 而 且 得 到 了 其 精确 表达 式 , 同时 他 们 还 考虑 了 构造 RD 的 置信 区 间 的 
Profile 似 然 方法 . Beal (1987) 在 回顾 前 面 建 议 的 这 些 置 信 区 间 的 基础 上 得 到 了 构 
造 RD 置信 区 间 的 Jeffreys-Perks 方法 和 Haldane 方法 , 其 模拟 结果 表明 这 两 个 新 
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置信 区 间 优 于 渐 近 置信 区 间 , 而 且 Jeffreys-Perks 方法 是 两 个 新 方法 中 最 好 的 一 个 . 
Wallenstein (1997) 基于 讨厌 参数 的 最 小 二 乘 估 计 提 出 了 构造 RD 置信 区 间 的 一 个 
ARERR, 该 方法 仅 需要 求解 一 个 二 次 方程 Chan 和 Zhang (1999) 讨论 了 RD 的 
基于 假设 检验 的 精确 非 条 件 置 信 区 间 . Newcombe (1998a, 1998b) 借助 大 量 的 模拟 
结果 比较 了 Beal 的 Jeffreys-Perks 方法 和 Haldane 方法 、Mee 的 方法 、Miettinen 和 
Nurminen 的 Profile 似 然 方法 、 基 于 精确 尾 概率 的 Profile 似 然 方法 以 及 基于 Mid-p 
的 尾 概率 的 Profile 似 然 方法 、Wilson (1927) 的 Score 方法 等 的 统计 性 能 , 其 研究 结 
果 表 明基 于 渐 近 方法 的 置信 区 间 的 覆盖 概率 通常 都 偏离 预先 指定 的 名 义 水 平 , Mee 
以 及 Miettinen 和 Nurminen 方法 的 覆盖 概率 与 预先 指定 的 名 义 水 平 很 是 接近 , 但 
其 计算 量 较 大 , Profile 似 然 方 法 能 达到 预先 指定 的 名 义 水 平 , 但 当 分 母 较 大 时 其 计 
算 很 难 , Wilson 的 Score 方法 不 仅 计算 简单 , 而 且 还 与 样本 量 无 关 , 是 最 理想 的 一 
个 . Chen (2002) 从 小 样本 角度 给 出 了 获得 RD 的 置信 区 间 的 拟 精 确 (quasi-exact) 
方法 . 

显然 , 如 果 Ho R, 则 表明 新 处 理 方法 与 标准 处 理 方法 有 一 样 的 治疗 效果 . 由 
于 新 处 理 具有 较 标准 处 理 不 可 拥有 的 一 些 优点 , 因此 , 告诉 病人 可 以 放心 地 用 新 处 
H. 但 Ho 被 拒绝 并 不 能 说 明 新 处 理 方法 就 不 可 用 了 . 为 了 不 让 有 这 么 多 优点 的 新 
处 理 方法 被 所 谓 的 严格 意义 上 的 等 价 性 而 拒 之 于 门 外 , Dunnett 和 Gent (1977) 首 
先 提 出 可 以 在 适当 损失 一 些 效率 的 情况 下 不 考虑 严格 意义 的 等 价 性 , 而 考虑 在 它们 
的 真实 差 不 大 于 指定 的 Ao 的 意义 上 的 等 价 性 , 即 提出 考虑 下 面 的 假设 检验 问题 : 


Ho : Py — Pz = âo > H; : Py — Pzr < ôo, (10.1.2) 


其 中 ，Ao < 0 为 根据 研究 的 实际 问题 而 事先 给 定 的 一 固定 值 , 有 时 也 被 称 为 可 容忍 
限 . 上 面 的 检验 结果 表明 : 如 果 拒 绝 Ho, 则 认为 新 处 理 不 如 标准 处 理 方法 . Dunnett 
和 Gent (1977) 也 考虑 假设 检验 问题 (10.1.2) 的 Pearson x? 检验 , 并 且 比 较 了 修正 
x? 检验 与 正 态 近似 方法 以 及 基于 精确 非 条 件 分 布 的 Gart(1971) 方法 的 优 劣 , 模拟 
结果 表明 前 者 优 于 后 面 两 种 检验 方法 . Makuch 和 Simon (1978) 给 出 了 检验 的 样 
本 量 计算 公式 ，Blackwelder (1982) 给 出 其 Wad 型 检验 统计 量 . 而 在 实际 应 用 中 ， 
人 们 和 希望 得 到 新 处 理 方法 与 标准 处 理 方法 一 样 好 或 在 可 容忍 限 内 新 处 理 方法 比 标 
准 处 理 方法 更 好 , 因此 , Hirotsu (1986), Rodary 等 (1989), Farrington 和 Manning 
(1990) 考虑 了 下 面 的 假设 检验 问题 : 


Ho : Py = Pz — Ap > Hi:py> px — Ao, (10.1.3) 


其 中 , Ao > 0 为 根据 研究 的 实际 问题 而 事先 给 定 的 一 固定 值 , 有 时 也 被 称 为 可 容忍 
BR. SK (10.1.3) 表明 当 Ho 被 拒绝 时 , 在 Ao 的 容忍 限 内 , 新 处 理 方法 的 治疗 效果 并 
不 比 标准 处 理 方法 的 治疗 效果 差 (或 效果 一 样 好 ). 这 一 检验 问题 就 是 众所周知 的 
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“ 非 劣 性 检验 问题 ”，Farrington 和 Manning (1990) 导出 了 假设 检验 问题 (10.1.3) 
的 基于 讨厌 参数 (或 多 余 参 数 ) 的 约束 极 大 似 然 估 计 的 Wald 型 检验 统计 量 , 并 研 
究 了 其 检验 的 功效 和 样本 量 等 . Chan (1998) 基于 Farrington 和 Manning (1990) 的 
Wald 型 检验 统计 量 讨论 了 其 精确 检验 , 但 其 计算 量 很 大 . 为 了 克服 这 一 困难 , Kang 
和 Chen (2000) 提出 了 检验 假设 (10.1.3) 的 近似 非 条 件 检验 , 该 检验 不 仅 计算 量 小 ， 
而 且 能 很 好 地 控制 犯 第 一 类 错误 的 概率 . 

Armitage (1971) 和 Halperin 等 (1968) 给 出 了 检验 假设 Ho: RR=1 一 三 : 
RR 关 1 的 检验 统计 量 , 并 导出 了 检验 的 样本 量 计算 公式 .然而 , 在 新 处 理 方法 与 
标准 处 理 方法 的 等 价 性 研究 中 , 研究 者 希望 通过 设计 一 个 研究 来 证 明 新 处 理 方法 
并 不 比 标准 处 理 方法 在 一 个 可 容忍 限 内 差 . 于 是 , Katz 等 (1978) 基于 RR((Gart, 
1985a), 又 称 RR 为 相对 风险 (relative risk)) 的 对 数 变换 考虑 了 假设 


Ho : py = bopz > Hı : py # opr (10.1.4) 


的 检验 , 其 中 ，m 为 一 事先 给 定 的 非 1 固定 值 . 之 后 , Koopman (1984) 和 Gart(1985a) 
基于 似 然 Score 方法 得 到 了 检验 假设 (10.1.4) 的 Score 检验 统计 量 , 但 该 检验 统计 
量 是 非 对 称 的 . 因此 , 为 了 得 到 对 称 的 检验 统计 量 , Gart(1985b) 以 及 Gart 和 Nam 
(1988) 给 出 了 Score 检验 统计 量 的 校正 形式 .Miettinol 和 Nurminen (1985) 导出 
了 形式 上 不 同 , 但 仅 差 一 个 乘积 因子 的 另 一 统计 量 . 基于 Miettinen 和 Nurminen 
(1985) 的 检验 统计 量 , Farrington 和 Manning (1990) 给 出 了 假设 检验 问题 (10.1.4) 
的 基于 讨厌 参数 (或 多 余 参数 ) 的 约束 极 大 似 然 估 计 的 检验 统计 量 , 并 研究 了 检验 
的 功效 和 样本 量 等 ， Blackwelder (1993) 比较 了 估计 RR 的 基于 对 数 变换 、 似 然 
Score 和 Poisson 近似 的 三 种 方法 并 研究 了 其 样本 量 问 题 . Chan (1998) 讨论 假设 检 
验 问题 (10.1.4) 的 基于 Farrington 和 Manning (1990) 导出 的 Wald 型 检验 统计 量 
的 精确 检验 . 

一 些 统计 学 者 们 从 不 同 的 角度 提出 了 找 RD 的 置信 区 间 的 近似 方法 . 例如， 
Noether (1957) 给 出 了 找 RR 的 置信 区 间 的 两 种 容易 计算 的 方法 ; Thomas 和 Gart 
(1977) 基于 国定 边缘 值 提 出 了 获得 RR 置信 区 间 的 精确 方法 ; Santner 和 Snell 
(1980) 从 小 样本 的 角度 考虑 了 找 RR 置信 区 间 的 精确 方法 ; Katz 等 (1978) 讨论 
T RR 的 基于 对 数 变换 的 置信 区 间 , 但 该 方法 不 可 用 于 zx 或 yy 为 0 的 情况 . 于 
是 ,Walter (1975) 基于 log(RR) 的 几乎 无 偏 点 估计 给 出 了 找 RR 的 基于 对 数 变换 
的 置信 区 间 . 此 外 , Katz 等 (1978) 得 到 了 RR 的 基于 Fieller 定理 的 置信 区 间 , 但 
该 方法 在 很 多 情况 下 都 无 效 . Koopman (1984) 以 及 Miettinen 和 Nurminen (1985) 
基于 Gart(1985a) 的 Score 检验 给 出 了 RR 的 几乎 一 样 的 置信 区 间 . Gart 和 Nam 
(1988) 通过 模拟 对 小 样本 和 不 太 大 样本 的 情况 , 研究 比较 了 Koopman(1984) 以 及 
Miettinen 和 Nurminen (1985) 的 置信 区 间 , 他 们 的 研究 发 现 Koopman (1984) 以 及 
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Miettinen 和 Nurminen (1985) 的 置信 区 间 能 很 好 地 达到 预先 给 定 的 置信 水 平 , 但 
它们 的 尾部 概率 非常 不 一 样 . 

Thomas (1971) 讨论 了 优 比 的 精确 置信 区 间 , 并 给 出 了 其 算法 , Thomas 和 Gart 
(1977) 提供 了 优 比 的 可 查询 使 用 的 精确 置信 限 . Gart (1962) 基于 x? 检验 的 大 样本 
理论 和 近似 Fisher-Irwin 检验 的 方法 给 出 了 优 比 的 近似 置信 区 间 . Plackett (1977) 
基于 边界 和 导出 的 似 然 函 数 讨 论 了 优 比 的 估计 等 问题 . Subrahmaniam (1979) 基于 
两 个 独立 F 变量 的 比 讨论 了 优 比 的 显著 性 检验 问题 . Bohning 等 (1984) 用 Monte 
Carlo 模拟 研究 讨论 了 2 x 2 列 联 表 的 Jeffrey Bayes 分 析 . Walter 和 Cook (1991) 
对 上 面 的 2 x 2 列 联 表 讨论 了 优 比 的 几 种 点 估计 的 比较 . Baptista 和 Pike (1977) HF 
究 了 优 比 的 置信 区 间 . 此 外 , Troendle (2001) 讨论 了 优 比 的 无 偏 置 信 区 间 . Lawson 
(2004) 借助 数值 模拟 方法 , 基于 做 盖 概率 、 置 信 区 间 的 长 度 等 统计 量 , 比较 了 10 种 
置信 区 间 的 好 坏 . 

为 了 评价 两 种 处 理 方法 的 等 价 性 , Berger 和 Hsu (1996) 考虑 了 下 面 的 区 间 假 
设 : 

Hao : Py — Pz < bo 或 py — pz > 51 + Han : ôo < Py — Pe < 41, 
Hro : py/pz < To 或 py /pz > ™ > Hr : no < py/pr < T. 
之 后 , Chen 等 (2000) 除了 考虑 上 面 的 两 个 假设 外 , 还 考虑 了 下 面 的 假设 : 


1 
< vom be Pe 20, > Ho : Yo < 


= Py(1 — Pr) 
z(1 — py) 


Py(1 = Da) 
H a 全 ee a 
i Pz(1 — py) 


` pz(1 — py) < Yi» 


EP, do <0 < ôi To < 1< m, wo<1< 为 预先 指定 的 固定 值 . 他 们 都 通过 将 
区 间 假 设 转化 为 两 个 单 边 假设 , 并 基于 统计 学 中 假设 检验 的 交 并 原理 给 出 了 基于 约 
束 极 大 似 然 估计 的 Wald 型 检验 . Hauck 和 Anderson (1984) 也 讨论 了 类 似 的 等 价 
性 评价 问题 . 有 关 优 比 的 等 价 性 评价 问题 的 研究 , 有 兴趣 的 读者 可 以 考虑 导出 检验 
优 比 的 区 闻 假 设 的 Score 检验 统计 量 以 及 似 然 比 检验 统计 量 等 . 所 有 前 面 的 讨论 都 
假设 了 样本 量 n 是 固定 的 . 最 近 , Tang, Liao, Ng 等 (2007) 考虑 n 是 一 随机 变量 ， 
而 z 和 y 为 固定 值 的 基于 RR 的 假设 Ho: RR = ġo oO H : RRF po 的 检验 问 
AR, 导出 了 假设 的 基于 Wald 型 统计 量 、 非 条 件 Score 统计 量 、 似 然 比 统计 量 和 条 
件 Score 统计 量 的 渐 近 、 条 件 精 确 和 Mid-p 等 三 种 检验 方法 . 但 到 目前 为 止 , 还 没 
有 见 到 有 关于 区 间 假 设 的 相应 讨论 , 这 是 一 个 非常 有 研究 价值 的 课题 . 

10.1.2 ”基于 配对 试验 设计 的 等 价 性 评价 问题 


对 n 个 病人 采用 标准 处 理 方法 来 治疗 其 某 种 疾病 , 对 与 其 配对 的 另外 ”个 病 
人 (这 nn 个 病人 与 标准 处 理 方法 对 应 的 病人 有 相同 的 病情 、 年龄 、 身 高 、 职 业 等 ) 
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采用 新 处 理 方法 来 治疗 其 疾病 . 用 这 种 方法 得 到 的 试验 结果 可 概括 在 如 表 10.2 所 
示 的 2 x 2 列 联 表 中 . 


表 10.2 
标准 处 理 方法 (X) 
新 处 理 方法 (Y) 有 效果 无 效果 和 
有 效果 TZ11(p11) Z12(Pi2) r1+(Pi+) 
没有 效果 x21 (p21) a22 (p22) T24 (p2+) 
和 T+1(p+1) T+2(p+2) n(1.0) 


表 中 , zi 表示 n 个 病人 中 用 这 两 种 处 理 都 有 效果 的 病人 数 ，z12 表示 n 个 
病人 中 用 新 处 理 方法 治疗 其 疾病 有 效果 ，, 而 用 标准 处 理 方法 治疗 其 疾病 没有 效果 
的 病人 数 , zz 表示 n 个 病人 中 用 标准 处 理 方法 治疗 其 疾病 有 效果 , 而 用 新 处 理 方 
法 没有 效果 的 病人 数 ，z22 表示 n 个 病人 中 用 这 两 种 处 理 方法 治疗 其 疾病 都 没有 
效果 的 病人 数 , pi 表示 这 两 种 处 理 方法 对 治疗 某 种 疾病 都 有 效果 的 概率 , p12 R 
示 新 处 理 方法 有 效果 , 而 标准 处 理 方法 没有 效果 的 概率 , por 则 表示 标准 处 理 方法 
有 效果 , 而 新 处 理 方法 没有 效果 的 概率 , poo 表示 用 这 两 种 处 理 都 没有 效果 的 概率 ， 
T11 + T12 = T14, T11 +L21 = T41, T21 + T22 = T24, T12 + T22 = T42, P11 + Piz = P+, 
Dll + P21 = P+1, P21 + P22 = Pa+; P12 + P22 = P+2- 显然 , pig 表示 新 处 理 方 法 治疗 
某 种 疾病 有 效果 的 概率 , 而 pj.! 表示 标准 处 理 方法 治疗 其 疾病 有 效果 的 概率 . 类 似 
地 , 在 流行 病 学 和 卫生 统计 研究 中 , 人 们 常常 将 p+! 和 Pi+ 分 别 看 成 是 使 用 标准 处 
理 方 法 和 新 处 理 方法 治疗 某 种 疾病 的 风险 , 其 中 常用 的 两 种 风险 如 下 : 

(1) 风险 差 : RD=pi4 — p41; 

(2) 风险 比 : RR=p1+/p+1- 

为 了 评价 这 两 种 处 理 方法 的 等 价 性 , 可 以 考虑 下 面 的 假设 检验 问题 : 


Ho : pit = pti © Hi : pis FA P+ (10.1.5) 
或 者 
Ho : pı+/p+ = 1 © Hi : p/P EL (10.1.6) 


根据 pi 和 p 的 定义 不 难看 出 ,上面 的 假设 检验 问题 等 价 于 下 面 的 假设 检验 问 
题 : 

Ho : p12 = p21 © pie F pai- (10.1.7) 
检验 假设 问题 (10.1.5) 的 著名 的 McNemar 统计 量 首先 是 由 McNemar 于 1947 年 
提出 的 , 后 来 人 们 为 了 纪念 他 卓有成效 的 研究 工作 而 将 该 检验 命名 为 著名 的 McNe- 
mar 检验 . 该 检验 事实 上 就 是 根据 观测 变量 (211, ziz, 221, zzz) 的 似 然 函数 或 在 已 知 
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不 一 致 配对 数 工 = zs + z21 的 条 件 下 的 条 件 似 然 (该 条 件 似 然 与 不 一 致 配对 概率 
$ = p12 + p21 无 关 ) 导出 的 Wald 型 统计 量 . 之 后 , Miettinen (1968) 在 给 定 x12 十 X21 
的 值 的 情况 下 得 到 了 著名 的 McNemar 检验 的 条 件 功效 , 并 给 出 了 McNemar 检验 
的 一 阶 、 二 阶 非 条 件 功效 函数 ，Mitra (1958) 基于 检验 问题 (10.1.5) 的 x? 检验 统 
计量 得 到 了 检验 的 局 部 非 条 件 功 效 , 并 给 出 了 相应 的 样本 量 计算 公式 . Bennett 和 
Underwood (1970) 给 出 了 McNemar 检验 的 功效 函数 . Connor (1987) 和 Connett 
等 (1987) 基于 条 件 和 非 条 件 方 法 研究 了 McNemar 检验 的 功效 , 并 给 出 了 在 给 定 检 
验 水 平 下 达到 所 需 功效 的 条 件 和 非 条 件 样 本 量 计算 公式 , 但 他 们 没有 讨论 其 公式 在 
小 样本 情况 下 的 有 效 性 . Duffy (1984) 得 到 了 McNemar 检验 的 精确 功效 计算 公式 ， 
并 将 它 推广 到 了 多 个 控制 组 (control) 的 情况 , 但 由 他 的 样本 量 计算 公式 得 到 的 样 
本 量 是 一 非 整 数 , 对 实际 使 用 者 很 不 适用 . Lachin (1992) 通过 比较 McNemar 检验 
的 非 条 件 功效 的 4 个 不 同 的 表达 形式 将 Duffy (1984) 的 结果 作 了 进一步 推广 , 得 到 
了 基于 条 件 功效 样本 量 计算 公式 , 他 的 模拟 研究 发 现 Miettinen(1968) 的 样本 量 公 
式 有 很 好 的 统计 性 能 . Schork 和 Williams (1980) 基于 精确 条 件 检验 得 到 了 计算 精 
确 非 条 件 功效 的 公式 , 并 导出 了 其 相应 的 样本 量 计算 . Suissa 和 Shuster (1991) 讨论 
了 假设 检验 问题 (10.1.5) 的 基于 McNemar 检验 统计 量 的 精确 非 条 件 检 验 , 并 给 出 
了 其 精确 样本 量 计 算 公 式 ，Schlesselman (1982) 基于 Miettinen(1968) 的 条 件 功 效 
函数 得 到 了 达到 给 定 功 效 的 在 给 定 优 比值 的 条 件 下 的 样本 量 计算 公式 . 为 了 得 到 
上 面 这 些 作者 给 出 的 样本 量 , 需要 知道 p12 + por 的 概率 或 优 比 的 值 , 然而 在 许多 研 
究 中 , 人 们 是 不 可 能 知道 p12 + por 的 概率 的 , 至 多 知道 pi, 或 pyr 的 值 . 为 了 克服 
上 面 的 困难 , Lachenbruch (1992) 给 出 了 获得 样本 量 的 一 些 折衷 的 办 法 , 即 根据 pi 
的 取 值 范围 计算 所 需 样本 量 的 最 大 值 和 最 小 值 以 及 中 间 值 . Lloyd (1990) 给 出 了 获 
得 RD 的 置信 区 间 的 一 般 方法 . Royston (1993) 研究 比较 了 各 种 精确 检验 的 基于 条 
件 和 非 条 件 方法 的 样本 量 的 统计 性 能 , 并 给 出 了 他 对 使 用 这 些 公式 的 建议 . May 和 
Johnson (1997) 基于 RR 方差 的 无 约束 估计 , 得 到 了 检验 假设 问题 (10.1.7) 的 Wald 
型 检验 统计 量 和 一 个 修正 的 Wald 型 检验 统计 量 , 并 基于 修正 的 Wald 型 检验 统计 
量 构造 了 RR 的 置信 区 间 . 之 后 , Lui (1998a) 指出 了 May 和 Johnson (1997) 置信 
区 间 的 错误 , 并 给 出 了 其 修正 的 置信 区 间 以 及 基于 似 然 比 检验 统计 量 的 渐 近 置信 区 
间 . Newcombe (1998a, 1999) 借助 模拟 研究 比较 了 RD 的 10 个 置信 区 间 的 履 盖 概 
率 , 他 的 研究 表明 : 基于 Profile 似 然 和 Tango (1998,1999) 的 基于 Score 检验 的 置信 
区 间 当 样本 量 n 较 大 时 , 其 覆盖 概率 非常 接近 预先 指定 的 名 义 水 平 .Tango (2000) 
和 Newcombe (2003) 更 进一步 地 研究 了 RD 的 基于 Score 检验 的 置信 区 间 的 统计 
PERE. Tang 等 (2005) 更 进一步 地 研究 了 RD 的 基于 检验 的 置信 区 间 的 小 样本 性 质 ， 
比较 了 基于 连续 校正 的 渐 近 置信 区 间 、 基 于 渐 近 Score 检验 的 置信 区 间 、 基 于 尾部 
概率 Profile 似 然 置 信 区 间 、 基 于 两 个 单 边 Score 检验 的 精确 非 条 件 置信 区 间 、 基 
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于 单个 双边 Score 检验 的 精确 非 条 件 置 信 区 间 、 基 于 两 个 单 边 Score 检验 的 近似 非 
条 件 置 信 区 间 、 基 于 单个 双边 Score 检验 的 近似 非 条 件 置 信 区 间 的 覆盖 概率 和 置 
信 区 间 的 宽度 . 此 外 , Altman (1991) 研究 了 RD 的 非 条 件 置信 区 间 . 

显然 , 如 果 Ho 成立, 则 表明 新 处 理 方法 与 标准 处 理 方法 有 一 样 的 治疗 效果 . 由 
于 新 处 理 具 有 标准 处 理 不 可 拥有 的 一 些 优 点 , 因此 , 告诉 病人 可 以 放心 地 用 新 处 理 ， 
但 Ho 被 拒绝 并 不 能 说 明 新 处 理 方法 就 不 可 用 了 . 为 了 不 让 有 这 人 么 多 优点 的 新 处 
理 方法 被 所 请 的 严格 意义 上 的 等 价 性 而 拒 之 于 门 外 , Lu 和 Bean (1995) 提出 了 不 
考虑 严格 意义 的 等 价 性 , 而 考虑 在 它们 的 真实 差 不 大 于 指定 的 Ao 的 意义 上 的 等 价 
性 , 即 提出 考虑 下 面 的 假设 检验 问题 


Ho : p41 = i+ + Ao > Hi : p41 = Ptr + Ai, (10.1.8) 


其 中 ，A1 为 根据 研究 的 实际 问题 而 事先 给 定 的 两 种 处 理 方法 的 不 可 接受 的 差 值 
(A, > Ao)， 由 于 假设 (10.1.8) 完全 不 同 于 假设 问题 (10.1.7), 因此 , McNemar 的 
检验 不 能 用 来 检验 假设 (10.1.8). Lu 和 Bean (1995) 以 及 Morikawa 和 Yanagawa 
(1995) 基于 McNemar 检验 导出 了 检验 问题 (10.1.8) 的 基于 大 样本 理论 的 条 件 和 
非 条 件 检验 , 并 给 出 了 相应 的 样本 量 计算 公式 , 他 们 也 证 明了 这 些 样本 量 公 式 是 参 
数 p11 的 单调 减 函数 , 而 且 还 导出 了 样本 量 的 上 界 、 下 界 和 中 点 值 , 并 指出 当 概 率 
pi 未 知 (事实 上 , 在 实际 问题 中 , 通常 都 是 不 知道 p11 的 值 的 ) 时 , 用 中 点 条 件 样本 
量 设计 实验 比 用 非 条 件 样本 量 设计 实验 更 能 达到 预先 期 待 的 功效 . 但 Lu 和 Bean 
(1995) 的 检验 统计 量 严 重 依 赖 于 zi 和 ca 的 值 , 并 且 当 ri 或 zol 为 0 时 , 这 些 
检验 统计 量 都 不 可 用 .上面 的 检验 结果 表明 如 果 拒 绝 Ho, 则 认为 新 处 理 不 如 标准 
处 理 方 法 . 而 在 实际 应 用 中 , 人 们 希望 得 到 新 处 理 方 法 与 标准 处 理 方法 一 样 好 或 在 
可 容忍 限 内 , 新 处 理 方法 比 标准 处 理 方法 更 好 , 因此 , Tango (1998) 考虑 了 下 面 的 假 
设 检 验 问 题 : 

Ho : pi = psi — lo © A: pig > pai — Ao, (10.1.9) 


其 中 , Ao > 0 为 根据 研究 的 实际 问题 而 事先 给 定 的 一 固定 值 ， 有 时 也 被 称 为 可 容 
ZR. sh (10.1.9) 表明 当 Ho 被 拒绝 时 , 在 Ao 的 容忍 限 内 , 新 处 理 方法 的 治疗 效果 
并 不 比 标准 处 理 方法 的 治疗 效果 差 (或 效果 一 样 好 ). 这 一 检验 问题 就 是 众所周知 
的 “ 非 劣 性 检验 问题 ”. Nam (1997) 基于 Bartlett (1953) 的 一 般 理论 导出 了 检验 
假设 (10.1.9) 的 Score 统计 量 , 他 也 基于 pis 和 pi 的 样本 估计 的 差 pry 一 六 1 = 
Zi2/n 一 ZT21/n 导出 了 检验 假设 (10.1.9) 的 正 态 偏差 统计 量 (后 来 我 们 发 现 该 统计 量 
其 实 就 是 基于 约束 极 大 似 然 估 计 的 Wad 型 统计 量 ), 他 还 研究 了 检验 的 功效 和 样 
本 量 , 并 且 还 对 配对 和 非 配对 的 情况 作 了 比较 研究 , 其 模拟 结果 表明 : Score 检验 较 
Wald 型 检验 更 能 控制 犯 第 一 类 错误 的 概率 . Tango(1998) 基于 一 个 新 的 参数 化 模型 
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导出 了 假设 检验 问题 (10.1.9) 的 Score 检验 统计 量 (我 们 在 研究 中 发 现 该 统计 量 其 
实 就 是 Nam 的 正 态 偏 差 统 计量 ), 并 给 出 了 RR 的 基于 Score 检验 统计 量 的 渐 近 置 
信和 区 间 , 该 检验 统计 量 可 用 于 r 或 ra 为 0 的 情况 , 而 且 McNemar 检验 是 Tango 
检验 的 一 个 特殊 情况 ，Hsueh 等 (2001) 给 出 了 检验 假设 问题 (10.1.9) 的 非 条 件 精 
确 检 验 . Sidik (2003) 基于 Berger 和 Sidik (2001) 的 理论 和 方法 发 展 了 一 个 极 大 讨 
厌 参数 的 置信 区 域 的 精确 非 条 件 检验 . 这 里 值得 一 提 的 是 , 为 了 及 时 报告 有 关 非 劣 
性 研究 的 最 新 进展 , 国际 医学 统计 杂志 Statistics in Medicine 于 2003 年 第 2 期 用 
一 个 专辑 出 版 了 非 劣 性 试验 的 最 新 研究 成 果 , 这 足以 表明 非 劣 性 研究 和 等 价 性 研究 
在 国际 医学 统计 研究 中 的 重要 性 . 所 有 前 面 提 及 的 精确 非 条 件 检验 都 没有 考虑 将 
给 定 的 有 兴趣 参数 限制 在 讨厌 参数 空间 内 . 最 近 , Lloyd (2008) 考虑 了 这 一 问题 , 得 
到 了 更 有 效 的 精确 非 条 件 检验 . 事实 上 , 发 展 精确 非 条 件 检验 的 关键 是 如 何 消除 讨 
厌 参数 , 而 消除 讨厌 参数 的 常用 方法 有 : O 用 讨厌 参数 的 极 大 似 然 估计 去 代替 讨 
厌 参 数 , 这 就 是 所 谓 的 近似 非 条 件 方法 ; @ 在 讨厌 参数 的 参数 空间 中 找 检验 p 值 
的 最 大 值 , 这 就 是 所 谓 的 精确 非 条 件 检验 (Lloyd, 2008; Lloyd and Moldovan, 2008), 
也 将 其 称 为 完全 极 大 (full maximization) 化 方法 ; @ 在 讨厌 参数 的 100(1 一 7)%% 置 
信 区 域 里 找 检验 p 值 的 最 大 值 , 再 加 7 即 得 检验 非 劣 性 的 p (A, 这 就 是 所 谓 的 部 分 
极 大 化 方法 ( Lloyd, 2008; Lloyd and Moldovan, 2008). 

为 了 检验 两 种 处 理 方法 的 等 价 性 , Lachenbruch 和 Lynch (1998) 在 无 金 标准 的 
情况 下 , 考虑 了 敏感 性 (sensitivity)( 有 关 敏 感性 的 概念 读者 也 可 参见 流行 病 学 的 有 
关 书 籍 ) 的 RR = p/p 的 如 下 复合 假设 : 


Ho : pi+ /p+1 < Ao 或 pi /p41 > A1 Hy : Ao < pi+/p4i < Ai, (10.1.10) 


其 中 , Ao € (0,1) 和 Ai © (1,00) 为 事先 指定 的 可 接受 边界 值 . 拒绝 Ho, 则 表明 
这 两 种 处 理 方法 等 价 . AXK bo 和 0 的 选择 可 根据 研究 问题 的 实际 背景 由 研究 人 
员 确 定 , 其 详细 的 讨论 可 参见 文献 (Tang ML, et al., 2002; Tang NS, et al., 2003). 
他 们 通过 将 复合 假设 分 解 为 两 个 单 边 假 设 得 到 了 检验 假设 (10.1.10) 的 所 谓 的 L 
统计 量 (将 比值 转化 为 差 值得 到 的 Wald 型 检验 统计 量 ) 和 Wald 型 比值 统计 量 
(基于 著名 的 Delta 方法 得 到 ), 并 研究 了 基于 置信 区 间 半 宽度 的 样本 量 , 该 检验 是 
McNemar(1947) 检验 统计 量 的 推广 , 他 们 也 讨论 了 同时 检验 两 种 处 理 方法 的 敏感 
性 和 特异 性 的 基于 McNemar x? 检验 的 等 价 性 评价 问题 . 但 是 , 他 们 没有 考虑 这 
两 个 统计 量 的 统计 性 能 , 而 且 他 们 的 统计 量 在 以 下 情况 : z11 = r = ra = 0, 
zu = %12 = 0 H. aq, =n, 21) = ta = 0 H zr =n, 212 = 22 = 0 Hay =n & 
没有 定义 . 后 来 , Tang (2003) 借助 模拟 研究 发 现 Lachenbruch 和 Lynch (1998) 
的 两 个 统计 量 在 许多 情况 下 都 不 能 很 好 地 控制 犯 第 一 类 错误 的 概率 . 因此 , 为 了 解 
决 这 些 问 题 ,Tang 等 (2003) 重新 讨论 了 假设 (10.1.10) 的 检验 问题 , 并 基于 Tango 
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(1998) 的 思想 导出 了 检验 假设 (10.1.10) 的 Score 检验 统计 量 , 该 统计 量 不 仅 能 很 
好 地 控制 犯 第 一 类 错误 的 概率 , 而 且 仅 在 zi = z12 = z21 = 0 的 情况 下 没有 定义 . 
此 外 , Tang 等 (2003) 还 给 出 了 基于 Wald 型 和 Katz 等 (1978) 的 对 数 变换 的 检验 
统计 量 ，Tang 等 (2002) 基于 Tang 等 (2003) 导出 的 Score 检验 统计 量 得 到 了 检 
验 的 功效 函数 和 相应 的 样本 量 计算 公式 , 他 们 还 得 到 了 基于 控制 置信 区 间 宽 度 的 样 
本 量 近 似 计算 公式 . Bonett 和 Price (2006) 在 综合 RR 的 Wilson Score 置信 区 间 
的 基础 上 得 到 了 RR 的 大 样本 置信 区 间 . 注意 到 , Tang ML 等 (2002), Tang NS 等 
(2003) 以 及 Bonett 和 Price (2006) 的 研究 都 假设 样本 量 n 充分 大 . 然而 , 在 实际 
应 用 中 要 获得 较 大 或 很 大 的 样本 量 有 时 是 很 困难 的 , 有 时 是 浪费 时 间 和 资金 的 ， 
此 , Chan 等 (2003) 基于 Tang ML 等 (2002), Tang NS 等 (2003) 的 Score 统计 量 提 
出 了 计算 检验 的 p 值 的 精确 非 条 件 方法 和 近似 非 条 件 方法 , 并 且 还 提出 了 RR 的 
渐 近 、 精 确 非 条 件 的 和 近似 非 条 件 的 5 种 置信 区 间 . Lui 和 Cumberland (2001) 4% 
虑 了 敏感 度 和 特异 度 的 基于 RR 的 等 价 性 检验 问题 , 并 在 已 知 讨厌 参数 的 样本 和 
约束 最 小 二 乘 估计 的 情况 下 , 给 出 了 等 价 性 检验 的 基于 对 数 变 换 和 Fieller 定理 的 
检验 以 及 对 应 的 样本 量 计 算 公 式 . Nam 和 Blackwelder (2002) 基于 Wald 统计 量 
和 约束 极 大 似 然 Fieller 统计 量 导出 了 相应 检验 的 样本 量 计 算 公 式 . 最 近 , Tang 等 
(2007) 考虑 了 敏感 度 和 特异 度 的 类 似 于 假设 (10.1.10) 的 同时 检验 问题 , 给 出 了 同 
时 检验 区 间 假 设 的 基于 Wald 型 检验 、 对 数 变换 检验 和 Fieller 型 检验 的 检验 统计 
量 以 及 对 应 检验 的 样本 量 计算 公式 .Biggerstaff (2000) 基于 似 然 比 的 ROC(receive 
operator characteristic) 曲线 , 比较 了 两 个 诊断 检验 的 基于 敏感 度 和 特异 度 . 为 了 检 
验 两 种 处 理 方法 的 等 价 性 , 可 以 借助 第 三 种 处 理 ( 既 无 副作用 也 无 治疗 效果 的 一 种 
处 理 方法 ) 来 考虑 其 等 价 性 评价 . 有 关 这 方面 的 研究 , 读者 可 以 参见 文献 (Tang and 
Tang, 2004). 这 里 还 有 很 多 的 工作 可 以 做 , 如 参数 的 估计 问题 (目前 Tang 和 Tang 
只 用 和 迭代 的 方法 得 到 了 其 参数 的 极 大 似 然 估 计 , 而 没有 得 到 其 极 大 似 然 估计 的 精确 
表达 式 )、 一 些 更 有 效 的 假设 检验 问题 等 . 

但 所 有 上 面 的 等 价 性 评价 都 是 基于 ORR 进行 的 , 而 在 实际 应 用 中 , 基于 RD 来 
评价 两 种 处 理 方法 的 等 价 性 也 是 很 有 意义 的 . 为 此 , Liu 等 (2001) 考虑 了 评价 两 种 
处 理 方法 等 价 性 的 如 下 区 间 假 设 : 


Ho : pit — pyr > ipis — pyr <6 My: -8 < piy — pyr < ô, 


其 中 , 5 > 0 为 某 一 事先 指定 在 临床 研究 中 有 意义 的 等 价 性 界 值 . 他 们 基于 统计 学 
中 假设 检验 的 交 并 原理 , 提出 了 检验 上 述 区 间 假 设 的 基于 样本 估计 方法 和 基于 约束 
极 大 似 然 估 计 方 法 的 检验 , 并 借助 大 量 的 模拟 研究 比较 了 这 两 种 方法 的 第 一 类 错误 
的 概率 和 功效 , 其 研究 结果 表明 : 就 控制 犯 第 一 类 错误 的 概率 而 言 , 基于 约束 极 大 
似 然 估计 方法 的 检验 优 于 基于 样本 估计 方法 的 检验 . 此 外 , 他 们 还 导出 了 达到 指定 
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功效 的 近似 样本 量 计算 公式 . 
10.1.3 ”基于 多 中 心 试验 设计 的 等 价 性 评价 问题 


首先 , 考虑 多 层 研 究 中 两 个 独立 二 项 分 布 的 等 价 性 评价 问题 . 为 此 . 考虑 如 表 
10.3 所 示 的 多 个 2 x 2 列 联 表 . 


表 10.3 
标准 处 理 方法 (X) 新 处 理 方法 (Y) 
有 效果 Ti(pzi) Yi(Pyi) 
无 效果 mi — Ti(1.0 — pri) ni — yi(1.0 — pyi) 


mi(1.0) ni(1.0) 
Yanagawa 等 (1994) 考虑 了 下 面 的 等 价 性 评价 问题 : 
Ho : Pyi = Pzi — Ai Hi:pyi> Pri — Ai, i=1,.…,1, 


导出 了 检验 问题 的 Mantel-Haenszel 型 检验 统计 量 . 同时 , 他 们 还 考虑 了 非 1 比值 
的 如 下 检验 问题 : 


Ho : Pyi/Pri = $i S pyi/pri > Gi, i=1,..,1, 


其 中 , 6; € (0.1) 为 一 事先 给 定 的 非 1 比值 给 出 了 检验 问题 的 Mantel-Haenszel 型 
检验 统计 量 . Hauck (1984) 在 假设 多 = pyi(1 一 pzi)/(pzi(1 一 pyi))(i = 1,… , 1) 的 情 
况 下 , 比较 了 优 比 消 的 各 种 点 估计 的 有 限 样本 性 质 . Gart (1985a) 在 假设 dr = = 
内 = 由 的 情况 下 基于 Bartlett (1953) 的 一 般 理 论 导 出 了 检验 假设 :由 = 1 一 
Hi :9 > 1 的 检验 统计 量 , 该 统计 量 又 被 称 为 Score 检验 统计 量 , 它 与 Radhakrishna 
(1965) 统计 量 (该 统计 量 是 Cochran(1954) 统计 量 的 推广 ) 是 等 价 的 , 它 是 局 部 最 优 
的 . Gart 和 Nam (1988) 基于 Gart (1985a) 导出 的 检验 统计 量 给 出 了 获得 og = …. 
= $1 = 9 的 置信 区 间 的 迭代 算法 , 但 他 们 没有 讨论 其 检验 的 功效 和 样本 计算 问题 ， 
而 且 他 们 还 证 明了 基于 Score 检验 的 Koopman 公式 以 及 Miettinen 和 Nurminen 
的 x? 统计 量 在 I = 1 时 是 相等 的 . Nam (1994) 在 假设 oi =- = or = 6 的 条 件 
下 导出 了 假设 Ho: pyi/pzi = o > Hı : Pyi/Pri = $ ($ > go 或 6 < Go, 他们 称 前 
者 为 右手 边 检验 , 后 者 为 左手 边 检 验 ) 的 Score 检验 统计 量 , 并 得 到 了 这 两 个 检验 
的 功效 函数 和 样本 量 计 算 公 式 . Nam (1998) 基于 Gart (1985a) 的 统计 量 研究 了 其 
检验 的 功效 及 样本 量 , 并 比较 了 分 层 Score 检验 和 非 分 层 Score 检验 的 效率 . Gart 
和 Nam (1990) 在 假设 A) ==… = Ar = 4 的 情况 下 讨论 了 4 的 齐 性 检验 问题 , 得 
到 了 齐 性 检验 的 Score 统计 量 , Nam (1995) 在 假设 A) =- = A, = A 的 情 帝 下 
讨论 了 假设 Ho: A= bo e Hi: As A< Ao) 的 检验 问题 , 基于 Bartlett(1953) 
的 一 般 理论 导出 该 检验 问题 的 Score 检验 统计 量 , 并 得 到 检验 的 功效 函数 和 样本 量 
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计算 公式 , 而 且 他 们 还 得 到 了 基于 非 分 层 数 据 的 样本 量 计算 公式 , 并 借助 模拟 结果 
比较 了 这 两 个 样本 量 的 统计 性 能 . Nam (2003) 讨论 了 Kappa 统计 量 的 齐 性 检验 问 
题 , 导出 了 检验 Kappa 统计 量 (AXR Kappa 统计 量 的 定义 读者 可 参见 文献 (Nam, 
2003)) 齐 性 的 似 然 Score 统计 量 以 及 一 个 修正 的 似 然 Score 统计 量 , 给 出 了 其 相应 
检验 的 功效 和 样本 量 计 算 公 式 . Song 和 Wassell (2003) 基于 Cochran 检验 统计 量 
导出 了 等 价 性 检验 的 样本 量 计 算 公 式 . 最近, Berger 等 (2006) 讨论 了 多 个 独立 两 
个 二 项 分 布 的 等 价 性 问题 . 

其 次 , 考虑 K 个 具有 相关 结构 的 2 x 2 列 联 表 的 等 价 性 评价 问题 . 具有 相关 结 
HIRIE k (k=1, ,K) 个 2 x2 列 联 表 可 表示 为 表 10.4 的 形式 . 


表 10.4 
新 处 理 方法 (X) 有 效果 无 效果 和 
有 效果 ki (Peis) Tk12(Pk12) Tki+(Pki+) 
无 效果 Tk21(Pk21) Tk22(Pk22) Tk2+ (Pk2+) 
和 Thk+1(PK+1) Tk+2(Pk+2) mk(1.0) 
表 中 ， Ek+j = Cig 十 Tk2jy TRI+ = LEIl + Tkj2, Pk+j = Pkij 十 Pk2j, Pkj+ = 


Pkjl + Pej2 (j = 1,2)，zk+l + Tk+2 = Mk, Te1q 十 Tk2+ = Nk, Pk+1 + Pk+2 = 1.0, 
pri + Prox = 1.0, 则 第 大 个 2 x 2 列 联 表 中 的 风险 差 可 定义 为 6k = Prit — Pky 
(k =1,-+-,K). Durkalski 等 (2003) 在 假设 5, = --- = 6k =6 的 条 件 下 考虑 了 假设 


Ho : pki2 — Pk21 = ĝo © Hi : pkiz — Pk21 = 6(> 060)， 大 三 1 天 (10.1.11) 


的 检验 问题 , 并 导出 了 检验 假设 (10.1.11) 的 Wald 型 检验 统计 量 . Nam (2006) 重新 
考虑 了 假设 (10.1.11) 的 检验 问题 , 并 导出 了 检验 假设 (10.1.11) 的 Score 检验 统计 量 
以 及 基于 讨厌 参数 的 约束 极 大 似 然 估计 的 类 似 于 Mantel-Haenszel 检验 统计 量 , 得 
到 了 相应 检验 的 功效 函数 和 样本 量 计 算 公 式 . Nam (2006) 还 考虑 了 齐 性 假设 问题 
Ho : 64 = 6 (HER k € {1,---, K}) e Hı : 6k 关 6( 至 少 存在 一 个 ke {1 , K}), 
导出 了 检验 该 假设 的 齐 性 Score 统计 量 以 及 基于 Tarone (1988) 齐 性 Score 方法 的 修 
TE Score 检验 统计 量 . 由 于 似 然 比 检验 在 统计 学 中 是 一 个 很 重要 的 检验 , 而 且 Score 
检验 是 似 然 比 检验 的 一 个 近似 , 因此 , Li 等 (2008) 考虑 了 假设 (10.1.11) 的 似 然 比 检 
验 以 及 Wald 型 加 权 检验 , 并 讨论 了 权 的 选取 , 并 在 假设 分 层 参数 tk = n/N, 


N = Song) 已 知 的 情况 下 得 到 了 检验 的 样本 量 计算 公式 . 这 里 值得 一 提 的 是 , 分 层 


k=1 
参数 t 为 一 随机 变量 的 情况 是 一 个 值得 研究 的 一 个 新 方向 . 最 近 , Tang 等 (2009) 
考虑 = pp /pr+1 的 同时 置信 区 间 , 以 及 在 假设 51 = --- = 61 = 6 的 情况 下 5 的 
基于 Profile 似 然 比 、 Cochran 统计 量 、Mantel-Haenszel 型 统计 量 、 加 权 最 小 二 乘 估 
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it. Score 检验 统计 量 以 及 Bootstrap 重 抽样 方法 的 置信 区 间 等 , 其 模拟 结果 表明 : 
基于 Bootstrap 重 抽样 方法 的 置信 区 间 的 覆盖 概率 非常 接近 预先 指定 的 名 义 水 平 . 
Mehta 等 (1985) 讨论 了 多 个 2 x 2 列 联 表 的 共同 优 比 的 精确 置信 区 间 并 给 出 了 其 
算法 , Mehta 和 Walsh (1992) 对 多 个 2x 2 列 联 表 比较 了 其 共同 优 比 的 精确 、Mid-p 
和 Mantel-Haenszel 置信 区 间 . 

最 后 , 考虑 大 个 独立 二 项 分 布 总 体 的 等 价 性 评价 问题 . 假设 (zi zz，…… ,zk) 表 
示 成 功 的 次 数 , (zz 0) 表示 失败 的 次 数 , (nl,nz，…… ,mk) 表示 上 个 总 体 的 
PEA, 则 该 数据 可 以 表示 为 如 表 10.5 所 示 的 2 x k 列 联 表 . 


表 10.5 
Pop 1 Pop 2 iad Pop 大 
有 效果 Zif(Tl) Z2(T2) aint 2K (Tr) 5 
无 效果 7T1(1.0— 71) Z2(1.0 — m2) EA z4 (1.0 — mk) N-s 


my (1.0) m2(1.0) soe mp (1.0) N 


表 中 , x; 为 第 j 个 二 项 分 布 总 体 成 功 的 概率 , zj + 2, = nj(j = 1, ,k)， 
tit te= s m Hon =N. KB, 感 兴趣 的 问题 是 想 检验 k 个 总 体 的 成 
功 概率 是 一 样 的 , 即 想 检验 假设 


Ho : T1 = T2 =...=T = no A: Tj É To 对 某 个 7 E {1,2,--- oi}; (10.1.12) 


其 中 , ro 为 某 一 未 知 讨厌 参数 . Mehta 和 Hilton (1993) HEF Pearson x? 统计 量 提 
出 了 检验 假设 (10.1.12) 的 精确 条 件 和 非 条 件 检验 , 在 精确 条 件 检验 中 行 边缘 和 s 
是 一 固定 值 , 在 精确 非 条 件 检 验 中 边缘 和 s 为 一 随机 变量 . 他 们 的 研究 结果 表明 : 
精确 非 条 件 检验 优 于 精确 条 件 检验 . 这 里 值得 一 提 的 是 : 假设 (10.1.12) 的 检验 是 
一 个 值得 进一步 研究 的 . 这 是 因为 Mehta 和 Hilton (1993) 只 研究 了 基于 Pearson 
x? 统计 量 的 精确 条 件 和 非 条 件 检验 , 而 没有 考虑 诸如 似 然 比 检验 和 Score 检验 等 
统计 量 的 精确 非 条 件 检验 和 近似 非 条 件 检验 等 以 及 检验 的 功效 和 样本 量 的 计算 公 
式 等 . 


10.1.4 基于 不 完全 2 x 2 列 联 表 的 等 价 性 评价 问题 


在 两 种 处 理 方法 的 配对 设计 研究 中 , 由 于 被 研究 的 配对 对 象 的 去 世 、 搬迁 或 处 
理 方法 本 身 的 副作用 等 原因 致使 研究 人 员 不 能 完全 得 到 被 试 者 的 数据 , 这 就 是 所 谓 
的 不 完全 数据 . 其 有 关 的 例子 可 参见 文献 (Choi and Stablein, 1982, 1988; Tang and 
Tang, 2004; Tang, et al., 2009). 这 类 数据 可 以 概括 在 如 表 10.6 所 示 的 不 完全 2 x 2 
列 联 表 中 . 

KP, mij = Pr(X =i,Y = j) (i,j = 0,1), nj A X =i HY = j 的 观测 频数 , u 
为 配对 研究 中 由 于 标准 处 理 方法 的 研究 对 象 的 缺失 而 只 观测 到 新 处 理 方法 的 研究 
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表 10.6 
标准 处 理 (Y) 

| 无 效果 (0) 有 效果 (1) 小 计 新 处 理 总 和 
无 效果 (0) noo (700) noi(mo1) mio+(ro+) mı —U(1.O-—m+) noy +mi-—u 
有 效果 (1) niolmio) nir(mi)  ni+(ni+) u(7i+) mi¢++u 

小 计 n4.o(%+40) nzi(m41) n(1.0) m4 (1.0) n+ mi 

标准 处 理 m2 — v({1.0 — 1741) viny) me2(1.0) 
总 和 n4o+m2—-v nyi +u n+ m n +m + m2 


对 象 的 观测 频数 , v 为 配对 研究 中 由 于 新 处 理 方法 的 研究 对 象 的 缺失 而 只 观测 到 标 
准 处 理 方法 的 研究 对 象 的 观测 频数 , m 和 ma 分 别 为 配对 研究 中 新 处 理 方法 和 标准 
处 理 方法 的 不 配对 的 研究 对 象 数 ， Ti = Toj Nijs Tj+ = Tjo +771, ntj = Noj +11;, 
nj = njo 十 nni(j =0,1). 为 了 研究 的 需要 , 假设 观测 数 (noo, 01,710,211)? 服从 
多 项 分 布 Multi(n; Too, 701, 710,711), u 服从 二 项 分 布 B(mi, mi), v 服从 二 项 分 布 
B(mo, 741). 容易 看 出 当 m = m2 = 0 时 , 不 完全 2 x 2 表 即 化 为 10.2 节 讨 论 过 的 
完全 配对 2 x 2 表 . 因此 , 本 小 节 假 设 mi > 0 和 m > 0. 为 了 评价 两 种 处 理 方法 的 
等 价 性 , Choi 和 Stablein (1982, 1988) 在 假设 数据 的 缺失 机 制 为 非 随 机 的 情况 下 考 
虑 了 假设 

Ho: m4 = 741 © Hi : mip #741 (10.1.13) 
或 

Ho : Tol = Tio +> Hi : Tol Æ T10 (10.1.14) 

的 检验 问题 , 提出 了 检验 假设 (10.1.13) 的 仅仅 基于 非 配对 数据 (u,v) 的 Wald 型 检 
验 统计 量 ( 当 n 可 以 忽略 时 )、 基 于 完全 配对 数据 (noo, nos, nio n1) 的 McNemar 
统计 量 和 基于 表 中 的 所 有 数据 的 综合 前 两 个 检验 的 统计 量 ，Tang 和 Tang (2004) 
给 出 了 检验 假设 (10.1.13) 或 (10.1.14) 的 精确 非 条 件 检验 和 近似 非 条 件 检验 . 最 近 ， 
Tang 等 (2009) 将 Tang 等 (2005) 关于 配对 设计 中 RD 的 置信 区 间 推 广 到 了 不 完全 
配对 设计 中 RD = my -ny 的 置信 区 间 , 给 出 了 计算 RD 的 置信 区 间 的 精确 非 条 
件 方法 、 近 似 非 条 件 方法 . 在 这 一 问题 中 , 有 如 下 一 些 问题 值得 进一步 研究 : @ 可 
以 考虑 类 似 于 Tang 等 (2003) 的 非 劣 性 或 区 间 等 价 性 假设 检验 ; @ 可 以 考虑 更 有 
效 的 Score 检验 统计 量 或 似 然 比 检验 统计 量 ; @ 可 以 考虑 更 复杂 的 缺失 数据 机 制 ， 
如 不 可 忽略 缺失 数据 机 制 的 情况 的 检验 问题 和 置信 区 间 的 构造 问题 等 , 这 是 一 个 非 . 
常 困难 和 复杂 的 问题 ; @ 上 述 假设 检验 问题 的 Bayes 推断 、RD 和 RR 的 Bayes 置 
信 区 间 、Bayes 样本 量 等 问题 是 一 个 需要 发 展 新 的 理论 和 方法 来 处 理 的 新 课题 . 


10.2” 带 有 结构 零 的 2 x 2 列 联 表 的 若干 问题 研究 
带 有 结构 零 的 2 x 2 列 联 表 是 前 面 介绍 的 2 x 2 列 联 表 的 一 个 特殊 情况 , 它 的 
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研究 始 于 20 世纪 90 年 代 初 俄国 统计 学 家 Agresti (1990) 关于 小 牛 二 次 感染 肺炎 
病毒 的 医学 试验 ， 在 研究 中 , 他 从 Okeechobee 和 Florida 地 区 抽取 了 156 头 出 生 
60 天 后 的 小 牛 作为 研究 对 象 , 记录 这 些小 牛 是 否 感染 肺炎 病毒 , 在 肺炎 病毒 感染 治 
愈 两 周 后 , 再 次 对 这 些小 牛 进行 观察 , 并 记录 这 些 是 否 再 次 感染 肺炎 病毒 . 由 于 研 
究 的 目的 是 想 考 察 第 一 次 感染 肺炎 病毒 后 的 小 牛 是 否 在 其 体内 产生 肺炎 病毒 的 抗 
体 ? 因此 , 对 第 一 次 没有 感染 肺炎 病毒 的 小 牛 不 作 进 一 步 观察 , 这 样 就 在 2 x 2 列 联 
表 中 产生 了 一 个 空格 子 . 将 具有 这 种 结构 的 2 x 2 表 称 为 带 有 结构 零 的 2 x 2 列 联 
表 , 其 数据 可 概括 为 如 表 10.7 所 示 的 2 x 2 表 . 


表 10.7 
第 二 次 感染 
是 atTll) brl2) a + b(mi+) 
否 c(722) c(722) 
和 a(Tll) b+ c(w+2) n(1.0) 


表 中 , mi 为 小 牛 两 次 都 感染 肺炎 病毒 的 概率 ,ms 为 第 一 次 感染 肺炎 病毒 , 但 好 
后 第 二 次 就 没有 感染 肺炎 病毒 的 概率 ,rz2z 为 第 一 次 不 感染 肺炎 病毒 的 概率 ，a, bc 
为 其 对 应 的 观测 值 , 并 且 满 足 a+b+e= n, 0< Tij < 1 (i,j = 1,2), mu +me2 = Ti+, 
Tu 十 li2 十 To22 = 1.0. 显然 , ri+ 表示 的 是 每 一 小 牛 第 一 次 感染 肺炎 病毒 的 概率 , 而 
mir / m4 则 表示 在 已 知 小 牛 第 一 次 感染 肺炎 病毒 的 情况 下 , 第 二 次 再 感染 肺炎 病毒 
的 条 件 概率 . 根据 ri+ 和 ri/m+ 的 意义 , 可 定义 其 风险 差 和 风险 比分 别 如 下 : 

(1) 风险 差 : RD = mi+ —m1/m™m4; 

(2) 风险 比 : RR = Tl1/T4 1. 

一 般 来 说 , 产生 结构 零 的 2 x 2 列 联 表 的 主要 原因 有 下 面 两 个 : 一 是 实际 问题 
本 身 固 有 的 , 如 小 牛 的 二 次 感染 数据 ; 二 是 由 于 某 些 因素 导致 得 不 到 观测 值 而 人 为 
引进 的 结构 零 , 如 文献 (Tang, 2004; Tang and Carey 2006.) 


10.2.1 基于 RR 的 统计 推断 


为 了 研究 小 牛 在 感染 肺炎 病毒 后 是 否 对 肺炎 病毒 有 一 定 的 免疫 力 , Agresti (1990) 
考虑 了 下 面 的 假设 : 
Ho: RR=1¢H,:RRF1 | (10.2.1) 
或 等 价 地 考虑 假设 
Ho: RD=0 H: RD #0 (10.2.2) 


的 检验 , 并 给 出 了 Pearson x? 检验 统计 量 . Lui (1998b) 给 出 了 RR 的 基于 Wald 型 
检验 、 对 数 变换 检验 、Fieller 定理 的 置信 区 间 , 并 借助 模拟 研究 比较 了 这 些 置信 区 
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间 的 覆盖 概率 和 置信 区 间 的 宽度 , 其 模拟 结果 表明 : 基于 Fieller 定理 的 置信 区 间 
的 统计 性 能 很 不 好 , 而 且 当 一 定 的 条 件 不 能 满足 时 该 置信 区 间 没 有 定义 . 但 是 , Lui 
(1998b) 的 研究 是 基于 大 样本 理论 得 到 的 , 而 当 样本 较 小 时 , 所 有 这 三 个 置信 区 间 
的 统计 性 能 都 不 太 好 . 因此 , Tang 和 Tang (2002) 基于 Wald 型 检验 统计 量 和 对 数 
变换 检验 统计 量 提出 了 获得 RR 的 置信 区 间 的 精确 非 条 件 方法 和 近似 非 条 件 方法 ， 
大 量 的 模拟 研究 表明 : 精确 非 条 件 置 信 区 间 和 近似 非 条 件 置信 区 间 的 覆盖 概率 较 
渐 近 置信 区 间 而 言 , 能 更 好 地 解决 接近 预先 指定 的 名 义 置 信 水 平 , 而 且 近 似 非 条 件 
置信 区 间 比 精确 非 条 件 置 信 区 间 更 有 效 . Lloyd 和 Moldovan (2007) 给 出 了 获得 RR 
单 边 置信 限 的 精确 方法 . Tang 等 (2004) 研究 了 假设 


Ho :RR= du + 一 Hi : RR # do (10.2.3) 


的 检验 问题 , 导出 了 检验 假设 (10.2.3) AY Score 检验 统计 量 的 精确 表达 式 , 并 证 明 
T me 的 极 大 似 然 估 计 是 一 个 一 元 二 次 方程 的 较 大 的 根 , 并 基于 Score 检验 统计 量 
给 出 了 RR 的 置信 区 间 以 及 获得 其 置信 区 间 的 迭代 算法 . Tang 等 (2006) 基于 检验 
假设 (10.2.3) 的 Wald 型 统计 量 、 对 数 变换 统计 量 和 Score 检验 统计 量 , 并 借助 著名 
的 Delta 方法 导出 了 检验 的 基于 达到 预先 指定 的 功效 和 控制 置信 区 间 宽 度 的 样本 
量 计算 公式 . Johnson 和 May (1995) 研究 了 带 有 结构 零 的 多 个 2 x 2 表 的 与 边缘 概 
率 和 条 件 概 率 有 关 的 假设 检验 问题 , 并 给 出 了 检验 齐 性 的 Cochran-Mantel-Haenszel 
性 检验 统计 量 . Gupta 和 Tian (2007) 基于 Tang 等 (2004,2006) 的 工作 , 讨论 了 RR 
的 基于 大 样本 理论 的 置信 区 间 , 他 们 重点 讨论 了 RR 的 基于 Rao 的 Score 检验 的 
置信 区 间 (事实 上 , 这 些 结论 Tang 等 于 2004 年 和 2006 年 已 经 得 到 , 仅 有 的 区 别 
是 其 近似 方法 不 一 样 ); 他 们 也 讨论 了 (10.2.3) 的 假设 检验 和 检验 的 功效 以 及 样本 
量 等 问题 . Stamey 等 (2006) 从 Bayes 角度 研究 了 RR 的 置信 区 间 , 给 出 了 RR 的 
后 验 均 值 和 标准 差 的 精确 表达 式 , 导出 了 RR 的 Gamma 近似 , 基于 这 些 表 达 式 和 
近似 公式 构造 了 RR 的 大 样本 可 信 域 , 并 且 给 出 了 基于 控制 平均 区 间 长 度 的 样本 量 
计算 公式 及 算法 . 发 展 新 的 算法 来 解决 多 个 带 有 结构 零 的 2 x 2 表 的 基于 RR 的 精 
确 非 条 件 检验 以 及 近似 非 条 件 检验 是 一 个 值得 进一步 研究 的 课题 . 


10.2.2 ”基于 RD 的 统计 推断 


Lui (2000) 进一步 研究 了 RD 的 基于 Wald 型 检验 、 似 然 比 检验 和 Fieller 定 
理 的 置信 区 间 , 并 借助 模拟 研究 比较 了 这 些 置信 区 间 在 大 样本 情况 下 的 覆盖 概率 和 
置信 区 间 宽 度 , 但 这 些 置 信 区 间 在 样本 量 较 小 时 都 不 能 达到 预先 指定 的 名 义 置 信 水 
平 , 而 且 似 然 比 检验 在 很 多 情况 下 都 没有 定义 . 因此 , Tang 和 Tang (2003) 首先 考 
ETBE 


Ho Ti+ — 11/714 = ĝo 车 地 A, : 人 1 十 一 TILL/ATL+ * do, (10.2.4) 


- 284 . 第 10 章 ”生物 医学 等 价 性 评价 问题 的 统计 推断 


HP, do e (-1,1) 为 一 事先 指定 的 可 接受 的 临界 值 . 其 次 , 基于 Bartlett (1953) 的 
一 般 理 论 导出 了 检验 假设 (10.2.4) 的 Score 检验 统计 量 的 精确 表达 式 , 该 统计 量 仅 
在 a =5= 0 时 没有 定义 , 同时 还 导出 了 检验 假设 (10.2.4) 的 似 然 比 检验 统计 量 , 证 
明了 参数 m, 的 极 大 似 然 估 计 是 一 个 一 元 三 次 方法 的 一 个 适当 根 , 并 给 出 了 根 的 
具体 表达 形式 . Ba, 基于 导出 的 检验 统计 量 讨论 了 RR 的 置信 区 间 . 大 量 的 模拟 
结果 表明 : 基于 Score 检验 的 置信 区 间 了 估计 和 基于 似 然 比 检验 的 置信 区 间 估 计 都 
能 很 好 地 达到 预先 指定 的 名 义 置 信 水 平 . 最 近 , Wang 等 (2006) 考虑 了 下 面 的 区 间 
等 价 性 评价 : 


Ho : |mrli+ — m1 /mi+| 2 o > Hı : |mi+ — n/m+| < 00. (10.2.5) 


他 们 通过 将 区 间 假 设 分 为 两 个 单 边 假设 , 并 借助 于 统计 学 中 假设 检验 的 交 并 原理 给 
出 了 检验 假设 (10.2.5) 的 基于 样本 估计 和 约束 极 大 似 然 估计 的 Wald 型 检验 , 导出 
了 检验 的 功效 函数 和 基于 功效 函数 的 样本 量 计算 公式 , 以 及 基于 控制 置信 区 间 宽 度 
的 样本 量 计算 公式 . 大 量 的 模拟 结果 表明 : 基于 约束 极 大 似 然 估 计 的 Wald 检验 优 
于 基于 样本 估计 的 Wald 检验 . Stamey 等 (2006) 从 Bayes 角度 研究 了 RD 的 置信 
区 间 , 给 出 了 RD 的 后 验 均值 和 标准 差 的 精确 表达 式 , 导出 了 RD 的 正 态 近似 , 基 
于 这 些 表达 式 和 近似 公式 构造 了 RD 的 大 样本 可 信 域 , 并 且 得 到 了 Bayes 样本 量 
计算 公式 及 算法 . Wang 和 Wang (2007) 研究 了 带 有 结构 零 的 多 个 2 x 2 表 的 基于 
RD 的 齐 性 检验 问题 . 最 近 , Wang 等 (2009) 研究 了 多 个 带 有 结构 零 的 2 x 2 表 的 基 
于 RD 的 假设 检验 和 置信 区 间 等 问题 . 

在 所 有 上 面 的 分 析 中 都 假设 了 n 是 固定 的 , 而 在 实际 问题 中 , 当 n 固定 时 , 有 
可 能 出 现 a 为 零 的 现象 . 这 一 现象 的 出 现 或 许 不 利于 对 RR 和 RD 作 统 计 分 析 . Al 
此 , 可 以 考虑 固定 a 而 假设 ”为 一 随机 变量 , 这 就 是 所 谓 的 逆 抽 样 问题 . 这 是 一 个 
既 有 理论 意义 又 有 实用 价值 , 更 具有 挑战 性 的 课题 . 发 展 新 的 理论 和 算法 来 解决 多 
个 带 有 结构 零 的 2 x 2 表 的 基于 RD 或 RR 的 精确 非 条 件 检验 以 及 近似 非 条 件 检 
验 是 一 个 值得 进一步 研究 的 课题 . 


10.3 3x2 列 联 表 的 统计 推断 


在 眼科 视网膜 务 合 外 科 手 术 研究 中 , 研究 人 员 常 常 希望 知道 外 科 手 术 的 成 功 是 
否 受 视网膜 的 特征 (如 溢出 物 等 ) 的 影响 . 注意 : 这 里 手术 成 功 的 定义 为 视网膜 的 
黏合 (RA) 率 达到 至 少 60%. 为 了 回答 这 个 问题 , 首先 根据 视网膜 的 特征 将 被 研究 
对 象 分 为 两 个 类 : 第 一 类 为 具有 视网膜 的 某 一 特征 的 个 体 , 第 二 类 则 为 没有 视网膜 
的 这 一 特征 的 个 体 . 然后 对 每 一 被 研究 对 象 根据 其 视网膜 黏合 的 眼睛 数 可 分 为 三 个 
组 : 一 组 为 手术 后 两 只 眼睛 中 一 只 都 没有 黏合 ( 即 RA=0), 第 二 组 则 为 两 只 眼睛 中 
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有 一 只 眼睛 手术 后 黏合 了 , 但 另 一 只 则 没有 黏合 ( 即 RA=1), 第 三 组 则 为 两 只 眼睛 
手术 后 都 黏合 (Bl RA=2). 这 类 数据 可 概括 为 下 面 的 3 x 2 表 ( 表 10.8). 


表 10.8 
视网膜 的 特征 
黏合 的 眼睛 数 无 (0) 有 (1) 
0 moo (poo) mo1(po1) 
1 mio(pio) my1(pii) 
2 m20(p20) mai (p21) 
Al m.4o(1.0) m4.1(1.0) 


表 中 , mu 表示 第 i 类 被 研究 对 象 中 , Ah 只 眼睛 手术 后 视网膜 竺 合 了 的 个 体 
数 , pni 表示 对 第 i 类 研究 对 象 而 言 , Ah 只 跟 睛 手术 后 视网膜 黏合 的 概率 ，rnoi 十 
Mii + Mai = Mii, Poi + Pii + Pa = 1.0 (i = 0,1,h = 0,1,2), por = 1 + RA? — 2A, 
piri = 2Ai(1— RA), pai = RA? (i = 0,1), 和 i = Pr(zijk = 1), MRA i 类 的 第 j MEN 
Sk 只 眼睛 在 治疗 后 视网膜 黏合 了 , W zi = 1 (i =0,1,7 = 1,--- Mpk = 1,2). 
R 是 度量 一 个 个 体 两 只 眼睛 的 相关 性 的 统计 量 . 如 果 R= 1, 则 表明 两 只 眼睛 完全 
独立 ; 如 果 RA = 1, 则 表明 两 只 眼睛 完全 相关 . 根据 上 述 定 义 的 符号 , 则 具有 第 i 类 
视网膜 特征 的 个 体 的 眼科 手术 成 功 的 概率 可 定义 为 6; = 1.0 — poi — pri /2 (i = 0, 1), 
而 A = 61 一 60 则 表示 共有 视网膜 特征 的 个 体 眼科 手术 成 功 的 概率 与 没有 这 一 特征 
的 个 体 眼科 手术 成 功 的 概率 的 差 . 显然 , E A = 0, 则 表示 具有 某 一 特征 的 个 体 手 
术 成 功 的 概率 与 没有 这 一 特征 的 个 体 手术 成 功 的 概率 是 一 样 的 , 即 表明 视网膜 的 某 
一 特征 对 视网膜 黏合 手术 没有 影响 . Rosner (1982) 首先 研究 了 这 一 问题 , 并 给 出 了 
检验 假设 
Hy): A=00H,:A440 (10.3.1) 


的 Tro 和 Tar 统计 量 , 其 中 , Tap 中 的 D 表示 的 是 该 统计 量 是 在 假设 一 个 个 体 两 
只 眼睛 的 手术 结果 为 两 个 非 独立 随机 变量 的 情况 下 导出 的 , 而 Tar 中 的 工 表示 的 是 
该 统计 量 是 在 假设 一 个 个 体 两 只 眼睛 的 手术 结果 为 两 个 独立 随机 变量 的 情况 下 导 
出 的 ( 即 该 统计 量 忽 略 了 两 只 眼睛 的 相关 结构 ). 一 般 来 说 , 一 个 个 体 两 只 眼睛 的 手 
术 结 果 肯 定 是 相关 的 , 即 一 只 眼睛 手术 成 功 与 否 对 男 一 只 眼睛 的 手术 成 功 是 有 影响 
AY. 因此 , 可 以 想象 忽略 了 两 只 眼睛 相关 结构 的 统计 量 肯定 没有 考虑 相关 结构 的 统 
计量 的 统计 性 能 好 . 为 了 证 明 这 一 事实 , Rosner (1982) 在 大 样本 情况 下 考虑 了 各 种 
情况 的 模拟 研究 , 其 模拟 结果 验证 了 上 述 推论 . 注意 到 Rosner (1982) 的 结论 是 基于 
大 样本 理论 得 到 的 . 然而 , 在 实际 应 用 中 , 无 论 是 mio 还 是 my 都 不 可 能 很 大 , 相 
反 地 , 他 们 通常 都 很 小 . 因此 , 为 了 研究 统计 量 Tap 和 Tri 的 统计 性 能 , Tang, Tang 
and Rosner (2006) 从 小 样本 的 角度 研究 假设 (10.3.1) 的 检验 问题 , 并 导出 了 检验 假 
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设 的 Wald 型 统计 量 , 提出 了 检验 假设 (10.3.1) 的 精确 非 条 件 方法 和 近似 非 条 件 方 
法 , 其 模拟 结果 表明 : 精确 非 条 件 检验 通常 产生 非常 保守 的 经 验 Type Ierror ( 即 它 
通常 低估 预先 给 定 的 名 义 检 验 水 平 ), 而 近似 非 条 件 方法 通常 产生 非常 接近 预先 给 
定 的 名 义 检 验 水 平 的 经 验 Type I error. 最 近 , Tang 等 (2008) 考虑 了 假设 


Ho : ào = À1 e Hı : Ao Æ A (10.3.2) 


的 检验 问题 , 基于 Bartlett (1953) 的 一 般 理 论 导 出 了 检验 假设 (10.3.2) 的 Score 检 
验 统 计量 的 精确 表达 形式 , 也 得 到 了 检验 假设 (10.3.2) 的 似 然 比 检验 统计 量 (但 没 
有 得 到 其 精确 表达 形式 , 这 是 因为 参数 AoA 和 R 的 非 约 束 极 大 似 然 估 计 没 有 解 
析 表 达 形 式 , 而 是 用 牛顿 迭代 方法 获得 其 解 的 ) 和 基于 R = 1 的 Wald 型 检验 统 
计量 , 以 及 基于 相关 结构 模型 的 Wald 型 检验 统计 量 , 提出 了 计算 检验 假设 (10.3.2) 
的 pb 值 的 近似 非 条 件 方法 , 其 大 量 的 模拟 结果 表明 : 基于 近似 非 条 件 方法 的 检验 能 
很 好 地 控制 犯 第 一 类 错误 的 概率 , 而 且 其 计算 量 也 很 小 , 而 基于 大 样本 的 渐 近 方法 ， 
即使 是 在 my 和 mis 很 大 的 情况 下 , 都 不 能 控制 犯 第 一 类 错误 的 概率 . 

在 一 些 眼 科 视网膜 务 合 外 科 手 术 研究 中 , 一 些 被 研究 对 象 或 许 只 有 -一 只 眼睛 需 
BEAL PY RS PLE AR, 有 一 些 被 研究 对 象 或 许 有 两 只 眼睛 都 需要 做 视网膜 茜 合 
外 科 手 术 . 在 这 类 问题 的 研究 中 , 研究 人 员 或 许 得 到 两 类 数据 : 一 类 是 来 自 一 只 眼 
睛 的 数据 , 这 类 数据 通常 称 为 单 边 数据 (unilateral data); 另 一 类 则 是 来 自 两 只 眼睛 
的 数据 , 这 类 数据 通常 称 为 双边 数据 (bilateral data). 最 近 , Pei 等 (2008) 考虑 了 视 
网 膜 的 某 一 特征 对 视网膜 黏合 手术 的 影响 , 即 有 某 一 特征 的 视网膜 黏合 手术 的 成 功 
率 是 否 等 于 没有 这 一 特征 的 视网膜 符合 手术 的 成 功率 . 

事实 上 , 研究 人 员 也 可 考虑 类 似 于 假设 (10.1.3) 或 (10.1.10) 的 如 下 假设 检验 
问题 : 

Ho: A= 4o > Hi: A> Ao 


或 
Ho : |A| > yo e Hı : |A| < 70, 
又 或 
Ho : Ali/Xo > mo 或 N/M < M1 Hı : Yo < Ar /Ao < 
其 中 , Ao, yo > 0 和 yO y) 为 预先 指定 的 固定 值 . 在 一 些 临 床 试验 中 , 研究 人 员 
也 想 知道 眼科 视网膜 秋 合 外 科 手 术 的 成 功率 是 否 与 做 手术 的 医生 的 水 平 有 关 . 为 


此 , 人 们 可 以 考虑 以 不 同 医 生 为 分 层 变量 的 多 中 心 3 x 2 表 的 等 价 性 评价 问题 . 这 
些 都 是 值得 进一步 研究 的 课题 . 
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10.4 4 Rk 语 


在 医学 统计 研究 中 , 两 种 治疗 方案 的 等 价 性 评价 问题 已 经 有 相当 长 的 历史 了 ， 
而 且 随 着 科学 技术 的 进步 和 竞争 的 日 益 加 剧 , 一 种 新 药品 与 目前 广 为 使 用 的 药品 、 
第 查 某 种 疾病 的 一 种 新 第 查 方法 与 男 一 广 为 使 用 的 第 查 方法 等 在 有 人 金 标 准 和 无 金 
标准 情况 下 的 等 价 性 评价 问题 会 越 来 越 重要 . 这 是 因为 随 着 竞争 的 日 益 激 烈 ， 一 
些 新 药品 不 断 涌 现 , 而 新 药品 在 进入 生产 阶段 之 前 必须 作 等 价 性 评价 分 析 ( FDA, 
2002). 尽管 中 国 目前 还 没有 采用 像 美国 PDA 一 样 的 管理 办 法 , 但 我 们 相信 等 价 性 
评价 问题 在 中 国药 品 市 场 和 医疗 器 材 以 及 临床 试验 研究 中 也 是 有 一 定 的 研究 空间 
的 . 因此 , 为 了 适应 社会 发 展 对 医学 统计 的 需要 , 在 此 提供 了 一 些 有 关 等 价 性 评价 
问题 研究 的 国内 外 的 最 新 研究 进展 仅 供 读者 参考 . 但 由 于 水 平 有 限 , 不 足 之 处 还 望 
同行 批评 指正 . 
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第 11 章 ”约束 下 的 统计 推断 方法 


序 约束 条 件 下 的 统计 推断 是 统计 分 析 中 一 个 重要 的 研究 领域 . 该 领域 的 研究 始 
于 20 世纪 50 年 代 早 期 . (Barlow, et al., 1972) 是 该 领域 的 第 一 本 专著 , 它 全 面 系统 
前 述 了 该 研究 领域 在 五 六 十 年 代 所 取得 的 重要 进展 . (Robertson, et al., 1988) 是 该 
领域 的 第 二 本 专著 , 它 在 原 有 框架 的 基础 上 , 充实 了 七 八 十 年 代 所 取得 的 进展 . 在 
过 去 的 20 年 中 , 该 领域 不 仅 在 理论 上 取得 了 大 量 新 的 进展 , 而 且 随 着 计算 机 技术 
的 飞跃 发 展 , 它 的 应 用 前 景 更 为 广阔 . Silvapulle 和 Sen(2004) 探索 了 约束 下 统计 推 
断 方法 在 药物 临床 试验 、 生 物 鉴定 、 生 物 医 学 、 遗 传 学 、 生 物 信息 学 等 学 科 领 域 的 
广泛 应 用 . 

在 约束 下 统计 推断 方法 的 研究 中 , 保 序 回归 的 研究 是 其 中 的 关键 . 11.2 节 概 
述 了 保 序 回归 的 性 质 和 求解 方法 ， 以 及 与 最 大 似 然 估计 之 间 的 关系 . 11.3 节 借 助 
Zucker 鼠 实 验 数据 阐述 了 约束 下 检验 的 一 些 基 本 方法 . 


11.1 多 面体 凸 锥 


11.1.1 #54 
在 R 中 , H Y = (wy,… ,yp) 表示 向 量 (或 点 ). 内 积 和 模 分 别 为 


(Y, 2Z)= yiz1 +--+ + yp2p, (11.1.1) 
IY l= v(Y, Y). 


定义 11.1.1 AC AR? 的 一 个 集合 , WRVY,ZECA€ (0,1) >AY + 
(L-AZEC, MAC AnA. 进一步 , 如 果 YY CC tS>OStY cc, MHCA 
4. 

例如 ， 

R? : {0}, 任意 一 直线 均 为 凸 锥 (Convex Cone); 

R? : C = {X € R?|(a, X) > 0H (b, X) > 0}; 

R? : C = {X € R?|(a, X) > 0, (b, X) > 0, (c, X) > 0}, 其 中 , a,b,c 为 三 平面 
的 法 向 量 . 


本章 作 者 : 史 宁 中 , 东北 师范 大 学 教授 . 
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es 


经 常会 遇 到 的 凸 锥 , 如 RY A R 的 非 负 象限 , 即 


RY = {Y € Rly, > 0,4= 1,2,... ,p), (11.1.2) 
D ={Y € Rly < y2 < --- < Yp}, (11.1.3) 
通常 把 D 称 为 由 半 序 所 限制 的 凸 锥 . 
一 般 地 , 令 al,… ,an 为 R? 的 一 维 向 量 , 81,… , Bn 为 实数 , W 
A={Y €RP|(a:,Y) > ,i=1,2,...,n} (11.1.4) 


为 一 个 凸 集 . 事实 上 , 对 VY,Z € AA € (0,1) 有 (aY) > bi (ai, Z) 2 Bii = 
1,2,---,n. BBA, (ai, AY + (1 —A)Z) = (ai, AY) + (ai, (1 — NZ)= Alai ¥) + (1 — 
Alai, Z) > Abi + (1—-ANBi =H (i= 1,2,- mn), MAY + (1-ANZEA, MA A X 
一 个 凸 集 . 

特别 地 , 如 果 取 B1 = Bo =… = Bn = 0, 则 由 式 (11.1.2) 和 式 (11.1.3) 所 定义 的 
凸 锥 均 为 式 (11.1.4) 的 特例 . 事实 上 , 只 需 在 式 (11.1.4) PR a; = (0,… ,0,1,0,---, 
0)( 其 中 , 第 i 个 分 量 为 1), 则 可 得 式 (11.1.2); ARM al = (-1,1,0,--- ,0), a2 = 
(0, 一 1;,1,0,… ,0), =+, a@p-1 二 (0,… ,一 1,1), WR (11.1.4) 退化 为 式 (11.1.3). 

当 n <p 时 , C 一 定 包含 一 个 线性 空间 . 例如 , sh (11.1.3) 包含 的 线性 空间 为 
yi= -= yp 显然 , RP 中 的 一 个 线性 子 空间 必 为 一 个 凸 锥 ; 反之 , 凸 锥 也 可 以 包含 
线性 子 空间 . 特别 地 , 凸 锥 必须 包含 零 向 量 . 如 果 一 个 凸 锥 不 包含 非 零 线性 子 空间 ， 
则 称 之 为 点 的 (pointed). 


11.1.2 DREA 


定义 11.1.2 ”对 向 量 组 Y1,… Yn 和 非 负 实数 和 1,… An, MAY 十.… 十 
AnYn A Yi Yn 的 一 个 非 负 线性 组 合 . 

引 理 11.1.1 C 是 一 个 凸 锥 的 充分 必要 条 件 是 C 的 任意 非 负 线性 组 合 也 属 
FC. 

证 明 ”必要 性 . 车 C 是 一 个 凸 锥 , WUT VY, Z e cC, Aà € (0,1) > AY+(1-A)Z € 
C. 对 Vi>0=>tY eC. 

假设 存在 一 个 C 的 非 负 线性 组 合 和 Yi 十 和 oY2 十 … 十 和 AnYn CO, 其 中 ,入 i 为 
非 负 实 数 , Y; € C (i = 1,2,… ,n). 由 C 是 凸 锥 可 知 入 Yi € C (i = 1,2,--- n). 
令 YY1,Y2,… ,Yn 的 前 i 个 向 量 的 非 负 线 性 组 合 和 Yi 十 A2Y2 十 …: AY EC, 
M AYAY + HAY + iY EC &Z=AM¥i+---+UYiec, W 
Z + \iiY in EC. 而 


Ài 
Z +Y ip = (1+ Ai) = Yin) EC. 


1 
— zZ 
1+ Aip 1 十 Ai+1l 
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又 因为 


M1 .1-1 
1 十 和 Xi+l 1 十 和 Ai+l” 


€ (0,1), 1+ i+ 2 0, 


1 
T+ Ai 
a 1 4 Ài+1 
1 十 Xi+l 1+ Aitl 
这 与 C 是 一 个 凸 锥 相 了 矛盾 , 所 以 假设 不 成 立 , 故 C 的 任意 非 线性 组 合 属于 C. 
充分 性 . 因为 C 的 任意 非 线 性 组 合 也 属于 C, 所 以 对 YY, ZeC,Xe(0,1) 有 
AY +(1-AZEC, 并且 对 W>0 人 好 EC, 所 以 C 是 一 个 凸 锥 . 
凸 锥 关于 交 的 运算 是 封闭 的 , 换 句 话说 , 若 Ci;,… ,Cn 是 凸 锥 , 则 CiNC2n- pn 
Cr 也 是 四 锥 . 事实 上 , 对 YY,ZDecCncn.…ncAe(0H > Y,Z €C; (i= 
1,2,---,n) > AY +(1-A)Z € Ci (i = 1,2,---,n) SAVH+(1-ANZE GANG 
门 .mmC 又 因为 对 V 20> tY €C; (i =1,2,--- ,n) > tY E€ CNC2N NCh, 
所 以 Cun C2n…nc。 是 凸 锥 . 
但 是 凹 锥 关于 并 的 运算 不 封闭 , 即 C1 UC, 未 必 是 凸 锥 . 由 引 理 11.1.1 可 以 证 明 
# CincCa2n…:ncn ÆA HE, MW Ci +C2 二 :十 Cn = {¥1+¥o2+---+YVnl¥i € Ci} 
(BAN) 是 一 个 凸 锥 . 事实 上 , 对 VY, Z e Cy +C24+---+Cn,d € (0,1). Vt > 0, WFE 
Yi, Zi € Ci (i=1,2, n), 使 得 = 和 :十 72 十 二 Yu = 2Z1+2Z2+… 十 Zn. 
而 


Yitl ¢ C, 


AY + (1—-A)Z=A(Y1 +Y2 ++ Yn) +(1—A)(Zit+ Z2 +-+ Zn) 
=(AY; + (1 —A)Z1) + + (AY n + (1 —A)Zn) 
ECL +C2+--:+Cn, 


tY =t(Y1+Y2 +- +Yn)=tY1 +tY2++tYn € C1 +024 +Chn, 


所 以 Ci + Co +--+ Cn A HE. 

需要 注意 的 是 , 尽管 财 凸 锥 的 直 和 仍 为 凸 锥 , 但 不 一 定 是 闭 的 . 反例 可 在 文献 
(Hestenes, 1975, 第 196 页 ) 找到 . 然而 , 对 特殊 的 二 维 情形 来 说 , 闭 凸 锥 的 直 和 仍 
FE ASAE. 

E C 是 凸 锥 , S C(C) 是 包含 C 的 最 小 线性 子 空间 , L(C) 是 被 C 包含 的 最 大 
线性 子 空间 . 利用 引 理 11.1.1 有 如 下 定理 : 

定理 11.1.1 令 -C={-YlY eC}), 则 L(C)=(-0)+0, L(C) =(—C)NC. 

证 明 (1) 显然 , (—C) + C BE C, VY e(-C)+0, FEY, c-0,Y, cO, 
使 得 Y = Y, + Yo, 所 以 -Y = -Y + (-Y 2). 而 -Yi € -C, -Y> € C, 所 以 
~Y € (-C) +C, W (-C)+C 为 线性 空间 . 设 以 (C) 为 任意 包含 C 的 线性 子 空 间 ， 
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对 VY c (-C)+C, WY =Yi+ Yo, 其 中 ,Yi € 一 C,Y2 € C, MA -Y € 一 C, 故 

-YieL'(0), 所 以 Y=Yi+Y2€EL'(0),(-C)+CCL'(O), 故 L(C)=(-0C)+C. 
(2) 显然 ((-CJ)nc) c C, X YY e (-C)NC, WY e (-C),Y € C, 所 以 

-yec-ye-c, 即 -Ye(-Cnc, 因 而 (-C)ncC 是 线性 空间 . i 乙 (C) 是 被 

C 包含 的 任意 线性 子 空间 , Wt VY € LC) A Y eC H -Y eC, MuUYe-c, 

w Y € (-—C)NC, 因而 L(C) = (-C) nC. 

11.1.3 ”投影 定理 


定义 11.1.3” 令 C 是 一 个 闭 凸 锥 , X 是 一 个 给 定向 量 , WRX <E C, HA 
|| X — X ||= min |X -Y |, (11.1.5) 


Wee X A X BC LHRH, it X = P(X|C). 
定理 11.1.2 Å AX BAC 上 的 投影 的 充分 必要 条 件 为 


Xec, (x-X,X)=0, (11.1.6) 

对 VY €C, (X-X,Y) <0. (11.1.7) 

证 明 VEE AA XK A X BC 上 的 投影 所 以 | x - X 用 = 
min || X- Y ||?, PUR vt > 0, f(t) =|| X -tÅ |? - || X-X [P20 当 


t=1 时 , f(t) 取 极 小 值 0, 则 大 (1) = 0. 
&X= (zre ,Zp) X = (£1,.… itp)’, 所 以 


p g p p 
f(t) = be 一 oo = 》 (z — t#:)(—8:) = —2 (2: — tti)(£:), 
i=l 


i=1 i=1 
进而 可 得 
f'(1) = -2》 (wi — ĉi) (£i) = 0， 
i=1 
所 以 (X — X, X) = 0, 式 (11.1.6) 得 证 . 
& re (0,1), W (1-A) +AY € C. 由 式 (11.1.6) 可 知 
|| X — X ||? <|| X —-(1-A)X -AY [=|] (X - X) + A(X - Y) |? 
=|] X —X ||? +0? -Y ||? +2\(K — Xe 


所 以 
Mi -Y |? 4X XX -Y)-2AX-Š,Y) 20. 
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再 由 式 (11.1.6) 可 知 (X - X, Ñ) = 0, 所 以 (X —H,Y) < À | Ñ -Y |? 又 由 于 
A € (0,1), 所 以 (X ~ X,Y) <0, 即 式 (11.1.7) 成 立 . 
充分 性 . BRIX ¢C,(X — K,X)=0, X% vy €C,(X —- X,X) <0, 所 以 
\xX-Y \P=|| X-X+X-Y |? 
二 上 X —X |? + | X-Y |? +2(x - X,X -Y) 
>||_X — X ||? +2(K -— X, KX) 一 2(X - X,Y) 
> 上 | X -Å |p, 
HIX- IIX -Y |? (VY €C), FA || X — X |?= min || X -Y 性 ,因而 
XAXEC ERRE. 
定义 11.1.4 4N = {1,2, n}, {a1 a2, ,Qn} 是 一 组 向 量 , 称 C = 
{X € RP|(a;,X) > 0,i € N} AS BAGH, Hat oO MCN, Cm = {X © 
R?|(a;,X) =0,i € M, (ai, X) > 0,i€ N-M} AC 的 一 个 面 . 
显然 , Car 也 是 一 个 多 面体 凸 锥 , 是 维 数 较 低 的 锥 . 
S C9 Cu 的 内 部 (由 Cy 的 内 点 所 生成 的 集合 )， 
C9, = {X € R?\(a;, X) = 0,i € M, (ai, X) > 0,i € N — M}. (11.1.8) 


11.2 WF EBS EAKA 


11.2.1 ”问题 的 提出 
通过 一 个 医学 的 例子 来 引出 统计 模型 . 假定 给 实验 的 对 象 服用 一 种 药物 , 观察 
其 是 否 有 阳性 反应 . 剂量 分 别 为 si(i = 1,2,… ,k), 满足 
S1 < S2 < +++ < Sk, (11.2.1) 
即 剂量 是 逐渐 增加 的 . 对 于 剂量 s; 试验 了 ni 个 动物 , 用 ii 来 表示 这 m 个 动物 中 
的 第 j 个 的 反应 , j = 1,2,… ,ni, 其 中 ， 
。 /1!， 有 反应 ， 
” |0, ÆR. 
用 pi 表示 剂量 s; 时 有 阳性 反应 的 比例 . 令 P= [pi,p2,… spel, 用 来 刻画 总 体 背 
景 的 参数 . 通常 的 方法 是 用 样本 比例 六 = 二 yz 来 估计 pi 但 是 在 实际 问题 中 ， 


了 
应 该 考虑 约束 (11.2.1), 即 参 数 p; 之 间 也 应 该 有 一 个 顺序 关系 . 一 个 自然 的 想法 是 
认为 pi 也 应 该 保持 与 式 (11.2.1) 相同 的 顺序 , 即 有 


O<pi SP2 S> pk <1. (11.2.2) 
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因为 nipi 服从 二 项 分 布 B(ni, pi), 此 时 似 然 函 数 为 


LP: P) = [Jp 0 -pat 


i=1 


即 有 


k 
—InL(P; Ê) = — 》 (nipi In p; + ni(1 — ĵi) In(1 — pi)). 
t=1 
在 约束 条 件 (11.2.2) FR p; 的 极 大 似 然 估计 (MLE), 也 就 是 求 在 式 (11.2.2) F, 
—In L(P; Ê) 的 最 小 解 . 令 Q 为 满足 式 (11.2.2) 的 所 有 P 的 集合 , 则 P* 为 约束 
(11.2.2) F P 的 MLE 的 充分 必要 条 件 是 P* e Q, 并 且 满 足 


— In L(P*; Ê) = min — ln L(P; Ê). (11.2.3) 


可 以 证 明 , Q 为 闭 凸 集 . 

是 否 能 通过 一 个 简单 的 算法 来 找 出 式 (11.2.3) 的 解 P* We? 一 个 非常 直观 的 想 
法 是 如 果 己 <Q@, W Pt = P; 否则 有 pi, 违反 了 顺序 约束 (11.2.2), 即 有 Pi > Piti. 
这 时 可 以 想到 合并 ; 和 1i+1 有 阳性 反应 的 项 数 并 求 其 平均 , 用 这 个 平均 作为 m 和 
pia 新 的 估计 , 即 有 
NiPi 十 Ni41Pi+1 

Ni 十 了 Li 计 1 

这 样 的 手法 继续 下 去 , 直到 得 到 的 估计 属于 Q. 

上 述 算法 简称 为 PAVA (pool-adjacent-violators algorithm)(Ayer, et al., 1955). 
该 算法 在 Barlow, et al. (1972) 和 Robertson, et al. (1988) 等 书 中 均 有 较为 详细 的 
讨论 . 在 11.3 节 将 继续 讨论 PAVA 算法 和 一 些 其 他 算法 . 

可 以 看 到 稍 作 一 些 解释 , 本 节 提 出 的 统计 模型 可 以 应 用 于 可 靠 性 增长 问题 . 
11.2.2 ”基本 定理 


EX 11.2.1 $ O= {01,… ,90k} 是 一 个 有 限 集合 , 一 个 定义 在 日 上 的 关系 
“<” 被 称 为 一 个 半 序 ， 如 果 有 如 下 性 质 : 

(1) 反 身 性 : 对 任意 OC 日 有 0; x 0;; 

(2) 传递 性 : 对 0i, 0j, Ok € 6,0; < 05,0; < Ox, 则 0i < Ox; 

(3) 对 称 性 ; 对 0,0; € O, 0i <0;,0; < 0i, 则 0; = 0;. 
如 果 “<” 还 满足 下 面 的 条 件 , 则 被 称 为 一 个 简单 半 序 (simple order): 

(4) 完备 性 : 对 任意 0i,9;E O LA I, <0; 或 者 9; x 0;. 

对 于 简单 半 序 , 则 8 上 的 “<” 可 以 写成 


Di = Di+1l = 


0, ~ Og ~ +++ X Op. (11.2.4) 
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显然 , 约束 (11.2.1) 就 是 一 个 简单 半 序 , 它 是 最 为 常见 的 一 种 序 关 系 . 在 应 用 统 
计 分 析 中 , 下 述 的 几 种 半 序 都 是 经 常 被 讨论 的 : 
(1) 人 金 形 半 序 (umbrella order) 


b <---> <O > > On: (11.2.5) 
(2) 简单 树 半 序 (simple tree order) 
0i <i, i=2,---,k; 
(3) 简单 环 半 序 (simple loop order) 
0 <O <O, i=2,---,k—-1. (11.2.6) 
定义 11.2.2 ”一 个 大 维 向 量 y = (W1,"… ,Yk) 被 称 为 对 于 “<” 的 保 序 函数 ， 
如 果 对 于 0;,0; € O, 6; < 0j, MA yi Syz. 
A G 为 保 序 函数 的 全 体 , 则 G 是 一 个 多 面体 凸 锥 . 令 w = (wi,… , we)’ (wi > 0) 
是 一 个 给 定 的 向 量 . 
定义 11.2.3 Sa 为 一 个 给 定 的 天 维 向 量 . z* 被 称 为 (zw) 的 一 个 保 序 回 
归 , 如 果 Zz* cG, 并 且 满 足 
k 


k 
Sen à T PITIE ne aes gee) Arde 
S (e r7) wi ali 2 (i Yi) wi. (11.2.7) 


t=1 


显然 , z* 可 以 看 成 = 在 G 上 的 一 个 投影 , 是 唯一 存在 的 . 从 定理 11.1.2 容易 
得 到 下 面 的 定理 . 

定理 11.2.1 2° 是 (z,w) 的 保 序 回归 的 充分 必要 条 件 是 对 于 任意 VEC 均 
有 


k . 
D(zi — zt)(zt — yiwi > 0. (11.2.8) 
i=1 
引 理 11.2.1 2* 是 (z,w) 的 保 序 回归 , 则 对 任意 YEG 有 
k k k 
y (xi — y) > Sai — r?) ori + Wet — yi) ws. (11.2.9) 
i=l i=l i=l 
引 理 11.2.2 ”如 果 r* 是 (Z,w) 的 保 序 回归 , 则 有 


k k 
So tiwi = >》 riwi. (11.2.10) 
i=l i=] 
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证 明 ”从 定理 11.1.2 知 对 任意 的 y EG, 


大 
2 C — rž )yiwi < 0. | (11.2.11) 
i=0 


显然 , y = (1,---, 1) EG, BILAL So as < Satu MRS y= (一 1,… ,一 1) 可 
i=1 i=1 

以 得 到 相反 的 结果 . 因此 , 式 (11.2.10) 成 立 . 

令 B 是 KK=1,…,k 的 一 个 子 集 , 令 

Av(B) = Yaw f Do 
iEB iEB 

这 是 z ETE B 上 的 一 个 算术 平均 . 对 于 实数 c, 用 [z* = c] 表示 K 的 一 个 子 集 
{ilz* = c}. 在 以 后 的 讨论 中 , 假定 集合 [z* = cl 不 空 . 

引 理 11.2.3 如果 * 是 (zw) 保 序 回归 , MA c= Av([z* = ch). 


证 明 ”因为 
k 
DP (wis) = SO (m-ar) wit Do ei — 27), 
i=1 {a* =c) [w* Ac] 
令 f(t) = E (ei — fue, 从 二 次 函数 的 性 质 可 知 1(t) 取 最 小 值 当 且 仅 当 
[æ* =c] 


t = Av({x* = cj). 


假若 c # Av([a* = cl). AW f(t) 是 一 个 连续 函数 , WE c 的 近 旁 存在 一 个 点 c, 
使 得 f(c) > fla), HA z = (z3, zn)! 也 是 保 序 函数 , 其 中 z; = r? (i € [zw* F 
ad), zi =aziliefzr=oc). 这 样 就 有 


> — 2*)2w; > Yin — zi)’ wi. 


这 与 z* 是 (z,w) 保 序 回归 矛盾 . 
定理 11.2.2 ”对 任意 实 值 函 数 少 有 


k 
Yl: — zs) = 0. 
i=1 


WERA ”从 z* 的 定义 可 知 存在 整数 1 (1 < 1 < k) 和 实数 c, ,ck, 使 得 对 
Vi € {1,--- ,k}, FE j € {1, S 因此 , 利用 引 理 11.2.3 有 


Yin — aj Jy (aj )wi = Evo >. (xi — cj)wi = 0. 


[w*=c;] 
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11.2.3” 保 序 回 归 与 最 大 似 然 估计 的 关系 


本 节 讨 论 保 序 回 归 与 最 大 似 然 估计 (MLE) 之 间 的 关系 . 先 考虑 正 态 分 布 的 情 
况 . 令 oj (j = 1 ,mi) 是 服从 N (0i 02) 的 一 组 样本 , i = 1,… k, 并 已 知 均值 服 
从 一 个 半 序 约束 , 如 外 << 9k. 用 G 表示 保 序 函数 的 全 体 , 这 时 的 最 大 似 然 函 
数 为 


1 n/2 1 k ni 2 k 2 
L(x, 0) = (z) exp 一 252 》 2》 (ty = Ti) 十 5y ni(i = 8i) ; 
i=1 


i=1 j=l 


其 中 , n = ml 十 … +e, B= 》 zi /ni 容易 看 到 在 给 定 半 序 约束 下 , 0 为 6 
j=l 

的 MLE, 即 9* 为 max L(æ, p) 的 解 等 价 于 O° c (z,w) 的 保 序 回归 , 其 中 , 2 = 
(T1, Eny, w = (m;e Nk)’. 

对 于 一 般 指 数 分 布 族 的 情况 , 也 可 以 看 到 类 似 的 情况 . 

令 了 为 mi (i = 1,… ,k) 的 取 值 区 间 . 从 直观 上 看 , 应 该 有 如 果 z* 是 (z,w) 
的 保 序 回归 , 则 z+ eT. 对 于 一 般 的 情况 , 有 下 述 定 理 : 

定理 11.2.3 Az fez ZHPRPRR $A z Sti < % (i =1,:--,h), 
则 有 


IN 


Ži 
证 了 明 令 z 是 一 个 保 序 函数 ， 并 令 hi = max{2;, 2;} (i = 1,2,- ,k). 容易 验 


证 , h = (hi, he)! 也 是 一 个 保 序 函 数 . 显然 有 
当 Zi 之 Ži 时 ， 


* = 
Ti < 2. 


Ti — Zi = Ti — hi; 


当 zi < zi 时 ， 


Zi — Zi > Ti — Z; = Ti — h; 20. 
因此 有 
大 大 
>》 (ci — hi} wi < Soi — zi)’ wi, 
i=1 i=1 


则 由 保 序 回归 的 定义 可 知 zf > z; (i = 1,---,k). 同样 也 可 以 证 明 zf <z 的 情况 . 
S IX x 的 取 值 区 间 . 定理 11.2.3 意味 着 为 求 保 序 回归 , 只 需 考虑 取 值 在 I 
上 的 保 序 函数 的 集合 . 
S 5 是 区 间 工 上 的 有 界 凸 函数 . 4u 4 了 时 , B(1) = +o. 显然 , > 在 了 内 部 
的 任意 一 点 上 存在 左 、 右 导数 . S $ 为 $6 的 导 函 数 . 当 $ 在 4 的 左 、 右 导数 不 相 
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等 时 , 令 o(u) 取 其 平均 值 , 并 令 y 在 工 的 左 、 右 端点 分 别 取 值 为 -oo 和 +00, 则 
从 凸 函数 的 性 质 可 知 p 是 一 个 不 减 函数 . 对 jv eI, 令 

Ag(u,v) = (u) — (v) — (u — vjel), (11.2.12) 


IES Ag(u,v) =0 和 Alu, v) = co, 对 应 于 u RE v 不 属于 I. 易 知 , Ag(u,v) > 0. 
特别 是 当 B 为 严格 凸 函数 时 , p A v => Ag(u,v) > 0. 
进一步 可 以 得 到 对 任意 7, s,t EI, 


Ag(r,t) = Ag(r, s) + Ag(s,t) + (r — 8)[¢(s) — (t)]. (11.2.13) 
定理 11.2.4 如果 z 4-A BHR zi Cl, 则 


k k k 
5 Ag(xi; zi)wi > 5 Ag(Ti, xt )wi + 5 Ag(2}, Zi)Wi, (11.2.14) 
i=1 i=1 i=1 
Bp TX* = (zi TR) 是 下 式 的 解 : 
k 
mB, 2, Ag(i, Zi) Wi. (11.2.15) 
因此 , 也 是 下 式 的 解 : 
k 
ax, DLO) + (zi — zi)p(zi)}wi. (11.2.16) 


如 果 SREB HH, 则 上 述 解 是 唯一 的 . 
证 明 $ r=g, s= g Mt=z. 利用 关系 式 (11.2.13) 可 以 检验 式 (11.2.15) 
左 、 右 两 边 的 差 为 


大 
> (z: — 27) (O(a) ~ (a) |i. 
t=1 


k 
从 定理 11.2.2 可 知 X (z: 一 2+)p(z*)wi = 0. AW y BARR, Alt, p(z) = 


i=1 
k 
(yp(z1),… s Pr) 也 是 一 个 保 序 函数 , 则 定理 11.1.2 意味 着 》) (zi 一 2?)9(zi)wi < 0. 
因此 , 式 (11.2.14) 成 立 . 
因为 Ag > 0, W z* 是 式 (11.2.15) 的 解 . 注意 到 Aw(zi,z) 的 第 一 项 是 5(zi) 
不 依赖 于 zi, 因此 , z* 也 是 式 (11.2.16) 的 解 . 
对 一 个 o 有 限 测度 v, 考虑 具有 下 述 密度 函数 的 指数 分 布 族 : 


f(y;0,7) = exp{fi(9) fo(r)k(y, T) + s(y,7) + 9(8,7)}, (11.2.17) 
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其 中 , y € 4,9 € (6, 四 ,+ eT. 将 讨论 9 的 估计 问题 , 因此 , r 被 称 为 讨厌 参数 . 设 下 
面 的 假设 成 立 : 

(A1) fi: 和 g(-,7) 在 (0,0) 上 有 二 阶 连续 导 函 数 ; 

(A2) f{(0) > 0,Y8 € (8,8); fa(r) > 0,Vr € T; 

(A3) g'(g,r) = —0 f1 (8) fa(r), Y8 € (8,9), 7 ET. 
在 上 述 条 件 下 容易 得 到 


E(k(Y,7)) =0, V(k(¥,7)) = [fi()fa(r)]*- 
S yy (7 = 1,2,… ,mi) BMA f(y; 0i ri) 的 一 组 样本 , i = 1,.… ,上 k. 假设 {9;} 


被 某 一 个 给 定 的 半 序 所 约束 , 要 求 在 此 约束 下 0; 的 MLE. 从 条 件 (Al)~ 条 件 (A3) 
容易 得 到 , 如 果 参 数 0; e (0,0) 没有 任何 约束 , W 9; 的 MLE 为 


= ~ So klujn). (11.2.18) 
Li j=1 


下 面 的 定理 表明 在 约束 条 件 下 , 9; 的 MLE 是 基于 6; 的 保 序 回归 . 

定理 11.2.5 ”在 约束 条 件 下 , 9 = (901,… ,0k) 的 MLE 是 (9,w) 的 保 序 回归 ， 
HP, Ô = (Âi, Oe), w = (mi fon), ++» nefol). 

WRA pe = (Jj,… ,1k) 是 一 个 参数 , ji € (6,0), WEA u 的 似 然 函 数 为 


L(Y, p) = exp 位 fi(pi)f2(7i) )ni6j ar oe 8(yiz, Ti) + Sac Ti | . 


i=1 j=1 i=1 
S G 为 满足 约束 的 保 序 函数 的 全 体 所 组 成 的 集合 , 则 8 的 MLE 是 max L(Y, 1) 的 
解 . 这 等 价 于 是 下 式 的 解 : 


ms {> Fali) falri)niĝi + yon q(hi, wh. (11.2.19) 


固定 bo € (0,0), 利用 条 件 (A3) 和 分 部 积分 可 以 计算 
q(k, T) = f —t filt) f2(T)dt + c = —f2(7) [ur — bo fı (80) 一 i (bd hc, 


其 中 , c 是 依赖 go 和 r 的 常数 , 但 是 不 依赖 py. 把 alur) RAR (11.2.19) 并 除去 
只 包含 u 的 项 有 


max {> [nm )6 一 mi fı (mi) JA hoat! matic} 


=1 


a. 


k 
-ma > if fi(t)dt + (6; = mA rate}. 


t=1 
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如 果 令 F(z) = | i 万 (bdt, MARAE (A2) 可 知 8(z) 是 一 个 凸 函数 . 利用 定理 11.2.4 


可 知 本 定理 结论 成 立 . 

为 讨论 定理 11.2.5 的 应 用 , 给 出 下 面 的 例子 . 

二 项 分 布 ”回忆 本 节 一 开始 所 讨论 的 问题 . 令 Y 为 取 值 是 0 或 者 1 的 随机 变 
量 , 其 中 , P(Y = 1) = 6, 则 对 应 于 {0,1} 上 可 数 测度 v, 密度 函数 为 


22) sino}. 


对 应 于 式 (11.2.17), (8, 0) = (0,1), T = 1, sly, 7) = 0, a(7, 6) = jn(l — 8), k(y, 7) = 
y, fo(r) = 1 Al fi(6) = ln[9(1 — 0)]. 容易 验证 , 条 件 (Al)~ 条 件 (A3) 是 被 满足 的 . 


对 应 于 式 (11.2.18)， ee = pi (i = 1k), 其 中 , pi 是 本 节 一 开始 给 出 


的 在 约束 下 的 MLE, 则 从 定理 11.2.5 可 知 在 半 序 约束 下 , 0 = (81, ,6k) 的 MLE 
是 (P,w) 保 序 回归 , w = (w, ,wk) 
类 似 地 可 以 验证 , 对 于 几何 分 布 、 分 布 、 Poisson 分 布 、 正 态 分 布 的 均值 与 方 
差 等 , 定理 11.2.5 都 是 适用 的 . 


11.2.4 MVA 算法 


先 讨论 有 限 半 序 , 然后 引入 在 有 序 半 序 约束 下 求 保 序 回归 的 MVA(minimum 
violator algorithm) 算法 . 

定义 11.2.4 对 于 bs,b E€ O, RI, XH, 并 且 不 存在 0 Ee 9, 使 得 09s。 XOX 
Or, WAKO, AO, 的 前 者 . 

定义 11.2.5 ”对 于 定义 于 日 上 的 半 序 <, 如 果 日 中 存在 一 个 元 素 没有 前 者 ， 
HHO 中 其 他 元 素 都 只 有 一 个 前 者 , WA X 为 有 根 半 序 (rooted tree order). 

定义 11.2.6 O 中 的 元 素 04 被 称 为 一 个 逆序 元 素 , 如 果 90。 是 94 的 前 者 , 并 
Er, < zs; 04 被 称 为 最 小 逆序 元 素 , 如 果 b 是 一 个 逆序 元 素 , HH zt = min{zili = 
1,2,--- hb}: 

显然 , 简单 半 序 和 简单 树 半 序 都 是 一 个 有 根 半 序 . 如 果 在 9 中 的 元 素 都 乘 上 
一 1, 伞 形 半 序 (11.2.5) 也 可 以 看 成 一 个 有 根 半 序 , 但 式 (11.2.6) 所 定义 的 简单 环 型 
半 序 则 不 是 一 个 有 根 半 序 . 

对 于 简单 半 序 的 情况 , 在 11.1 节 介绍 了 PAVA 算法 . 这 个 算法 显然 不 同 于 一 
般 的 半 序 约束 , 下 面 所 要 介绍 的 MVA 算法 是 由 Thompson (1962) 提出 的 . 

对 o 中 的 子 集 A, > A! = {il0; € A}, MW Av{O;} = zi i = 1,2,---,n 


Av{A}= >> wm/ 》 wi. 


ic A’ ic A’ 


f(y;0) = 0” (1 — 0). — y) = exp {vin ( 
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MVA 算法 的 实施 步骤 如 下 : 

(1) WR z = (Av{01},… ,4ofekj) € G, W 6 = a; 

(2) 否则 , 找 出 最 小 逆序 元 素 9,, 合并 9 与 其 前 者 0, 并 用 一 个 元 素 8' 代表 ， 
则 Av{0'} = Av{O,, 0t}; 

(3) 重复 (2), 直到 O 被 分 割 为 m 个 不 相交 的 子 块 A1, 42,… , Am, 使 得 6 = 
(01,… ,6 ) EG, 其 中 , {8i} = Av{ Aj} MO € LA 

定理 11.2.6 ”由 上 述 MVA 算法 得 到 的 解 8 是 (z,w) 的 保 序 回归 . 

为 证 明定 理 11.2.6, 需要 一 些 预 备 知识 . 

定义 11.2.7 9 的 子 集 工 是 一 个 下 集 , 如 果 0s CLA EO, < Os, WO ELi; 
U 被 称 为 一 个 上 集 , 如 果 0, CU, EO, 0s <M, MO EU. 

BR, LAFE, Lo = O-LAER U AER, WU. 为 下 集 . 如 果 y 是 一 个 
保 序 函数 , 则 对 实数 a, [y < a] = {0;|y; < a} 为 一 个 下 集 , 而 [y > a] 为 一 个 上 集 . 


FR U 为 一 个 上 集 的 充分 必要 条 件 是 区 = { se | 为 一 个 保 序 
函数 
引 理 11.2.4 ”对 于 实数 a, 下 集 工 和 上 集 也, 令 8 为 (zw) 保 序 回归 , 则 
Av{LN |e" > al} > a, 
Av{ LN [z* > al} > a, 
Av{ Ln [x* < a]} <a, 
Av{Ln [a* < al} <a. 


证 明 ”考虑 最 后 一 个 不 等 式 . 对 于 任意 -oo <a <b< +o @ fa <r < 日 
表示 {bjila < x3 < b}, 类 似 定理 11.2.2 的 证 明 有 


(zi — zï )wi = 0. (11.2.20) 
6,€la<a* <b] 
对 下 集 L, > 
A 1, ĝi E L, 
US | o, 其 他 ， 
则 一 IL(i) 为 一 个 保 序 函数 . 从 定理 11.1.2 可 知 
大 
-> (z: — xf jwi = X (z: — zi) [IL (iwi < 0. (11.2.21) 
QiEL i=1 


如 果 UN [z* < al 不 空 , 则 
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(zi — a)wi < >: (zi — 27 )wi 


0:€UN|[x* <a] 6,€UN|[x* <a} 
= J, (m-sika- 2 (zi — z} wi 
0,€[a* <a] piEtren[z*<d] 


<0, 


则 
Ziwi <a pD Wis 
eicEUnlz*<d] eicEUn[z*<a] 
从 而 可 得 4vufUntlzc* < al} <a. 
引 理 11.2.5 42° 为 (aw) 的 保 序 回归 , 如 果 b 的 前 者 为 0s, 并且 zt = 
min zi, 则 zx = zt. 


证 明 WẸ ct Act, WA ct =a <b=<y, 
L = [æ* < a} | {0}. 


对 On, € LO < On, WH On € [ze* < a], WA € [zw* < a] = 0i E L; WR On =o, A 
为 0s EO, 的 前 者 , 则 91 < 0s. af < at = a, 0 € [x* < a] SHEL, M L AATF 
集 , 从 而 
a, = Av{0:} = Av{LN [zr* > b]} >b. 
另 一 方面 , 从 题 设 和 引 理 11.2.3 可 知 


a = Av{[x* = a]} 2 zt 2 b, 


E a <b 矛盾 的 . 
定理 11.2.6 的 证 明令 9 和 4 为 满足 引 理 11.2.5 条 件 的 元 素 , WAR (s, w) 
的 保 序 回归 z*, 只 需 考虑 G 的 子 集 G', 其 中 , gs = g, 因为 < 是 一 个 有 限 半 序 , b。 
是 b 的 前 者 , 则 可 以 用 一 个 元 素 9' 来 代替 , 9' = {9,,9:}, 得 到 一 个 新 的 有 限 集 0’, 
其 中 , 包含 一 1 个 元 素 . 令 <’ 为 < 在 69' 上 导出 半 序 , 则 <’ 也 是 一 个 有 限 半 序 . 
显然 , 9 是 一 个 对 于 < 的 保 序 函数 且 满 足 gs = g, SAMS g = (91 9 和 1 
是 一 个 对 于 <’ 的 保 序 函 数 ， 其 中 ， g; = gi, Oi F 92,0; F A, g; a (gt) = g. 
如 果 bp = 9 = {0,0}, 2! = (£h tk) RP, zt = 2,0; F 00,0; F Oe 
x = Av{O,,6:},0; = 0 = {0;,0:}, wi = ws +w bi = 0, 则 对 任意 的 g c G, 满足 
Is = gt A 
k 


2 (s — gi wi = > (xi — gi) wi + (£s — gs) ws + (Tt — ge) wi 
i=l 0i#0s,01#0t 
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一 5 (a’, — gi) wi + (Ehr — gi) wh 十 (zs — 19)? ws + (Tt — 19) wt 
6:70! 


k 
=a! - gui + c, 
i=1 
其 中 , c 是 一 个 与 g 无 关 的 常数 . 因此 , 求 
k 
main 2 C a gi} wi 


CF ES 7 
grin, 2 人 — gi} w 


的 解 , 于 是 定理 得 证 . 
关于 保 序 回归 的 优良 性 、 保 序 回归 的 一 些 扩展 (如 多 维 情形 ) 的 讨论 , 可 参见 
文献 (ETH, 1993) 一 文 及 其 相关 的 参考 文献 . l 


11.3 趋势 性 检验 


例 11.3.1( 模 型 的 建立 ) 本 例 的 实验 数据 来 源 于 日 本 九州 大 学 医学 部 内 科 第 
一 实验 室 (Shi, et al., 1988; Shi, 1991). 研究 两 种 Zucker 鼠 的 行为 表现 中 的 食物 表 
W, 一 种 是 胖 型 的 (obese), 一 种 是 瘦 型 的 (lean), 并 且 认 为 胖 型 是 因为 某 种 隐 性 基 
因 引 起 的 (Zucker and Zucker, 1961). 

每 种 Zucker 鼠 各 选 4 R, 记 为 0; 和 L,,i=1,--- ,4, 食用 颗粒 状 食物 . 分 白天 
(8a.m.~8p.m.) 和 黑夜 (8p.m.~8a.m.) 记录 食物 量 , 分 别 记 为 4 和 B. 表 11.1 和 表 
11.2 分 别 记 录 了 两 种 鼠 在 鼠 龄 12, 23, 30 和 43 周 时 的 进食 量 , 其 岁数 相当 于 人 类 
18, 30, 40 和 60 4. 


3211.1 HH Zucker RAS 


Hi 12 23 30 43 

A 216 231 264 265 

O71 B 450 428 442 377 
A+B 666 659 706 642 = 

A 290 345 351 284 

O2 B 308 289 327 314 

A+B 598 634 678 598 

A 180 276 289 373 

Os B 474 434 381 321 

A+B 654 710 670 694 
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表 11.2 WH Zucker MÄR 


周 龄 12 23 30 43 

A 157 153 178 133 

Lı B 316 314 316 330 
A+B 473 467 494 463 

A 146 175 193 154 

Lo B 333 282 304 290 
A+B 479 457 497 444 

A 132 189 204 168 

L3 B 331 336 324 271 
A+B 463 525 528 439 

A 181 163 188 156 

La B 275 305 281 247 
A+B 456 468 469 403 


可 以 根据 研究 目的 不 同 , 构造 不 同 的 模型 来 分 析 这 些 数据 ( 史 宁 中 , 2008; Shi 
and Tao, 2008). 实验 的 原本 目的 是 要 研究 两 种 鼠 的 食物 行为 是 否 会 随 着 年 龄 的 增 
长 出 现 本 质 的 差异 . 

对 应 于 鼠 龄 的 4 个 总 体 , 每 个 总 体 取 4 个 样本 , 记 为 yi;;. 分 析 表 11.1 可 以 看 
到 随 着 周 龄 的 增加 , Zucker 鼠 的 进食 量 也 是 逐渐 增加 的 (i = 4 下降 的 情况 在 本 节 


的 最 后 再 讨论 ). 这 意味 着 均值 gi = 》 y/n 也 可 能 是 逐渐 增加 的 . 


j=l 

为 了 更 好 地 分 析 上 述 问题 , 考虑 如 下 建 模 问题 : 假定 有 个 相互 独立 的 总 体 ， 
D1,… ,Dk, 从 总 体 D; 中 抽取 样本 容量 为 mw 的 一 组 样本 , i = 1,--- 、k. 如 果 只 考 
虑 观测 误差 , 则 可 以 建立 如 下 模型 : 

Yij = bi + Eijs tH1,---,k,F=1,---, i, (11.3.1) 
其 中 , 9; 表示 未 知 的 参数 , si 表示 观测 误差 . 一 般 地 , 假定 ej 相互 独立 且 cij ~ 
N(0,o7). 因而 可 以 认为 yii,… yin, 是 来 自 N(9i,o2) 的 一 组 样本 . 

再 仔细 分 析 模 型 (11.3.1), 在 通常 情况 下 , Di 在 行为 分 析 时 表示 年 龄 , 在 药 效 
分 析 时 表示 剂量 , 在 经 济 分 析 时 表示 时 间 . 因此 , 在 这 些 情况 下 都 可 以 表示 为 Di < 
Dz < .… < Dr, 而 对 应 的 参数 往往 也 可 以 表示 为 

Hi:0 <---> < Ox. 
在 检验 分 析 时 , 应 当 充 分 考虑 这 个 信息 . 因此 , 一 个 合适 的 检验 问题 应 当 为 
Hp: 6) =--- =O 和 Hi:H— Ho, (11.3.2) 


其 中 , H — Ho 表示 存在 i < j, 使 得 o < 0;. 通常 称 为 这 样 的 问题 为 趋势 性 检验 


11.3 ”趋势 性 检验 “313. 


(trend testing problem) 或 者 半 序 约束 下 的 检验 (order restricted testing problem), 
特别 地 , 称 H 表示 简单 半 序 约束 (simple order restriction). 
首先 说 明 由 式 (11.3.2) 给 出 的 检验 是 单 边 检 验 , BP H 对 应 的 参数 空间 为 一 个 
MH. + 96= {0ER <---< OK}. > 
a; = (-1,1,0,--- ,0,0)', 
az = (0,—1,1,--- ,0,0)’, 


a,.—1 = (0,0,0,-+- ,—1,1), 
则 6 可 以 写成 下 面 的 形式 : 
O = {0 € R* a6 >0,i=1,..…,k—1}. (11.3.3) 
因此 , 6 是 一 个 多 面体 凸 锥 . 可 以 构造 几 种 检验 统计 量 来 研究 这 个 问题 . 
11.3.1 ”线性 检验 
1. Mantel 检验 
因为 由 式 (11.3.2) 给 出 的 检验 问题 中 的 参数 太 多 , 分 析 起 来 比较 困难 , Mantel 
(1963) 提出 一 个 缩减 参数 的 方法 . 假定 参数 遵循 一 个 线性 增长 原则 , 即 令 
0i =a+ Bt, t=1,---,k, (11.3.4) 


其 中 , 8 > 0, 而 ti 是 给 定 的 常数 , 满足 1 < … < tk. 在 这 个 模型 下 , 检验 问题 转化 
为 

Ho:8=0 和 MW: B>0. (11.3.5) 
容易 验证 , 参数 a 和 有 的 MLE 是 下 式 : 


k 
min in Gs -a ~ pti)? = mig (pi ~ a = pti) wi 
i=1 


i=1 j=1 


的 解 , 其 中 , wi = mi H gi = >》 yij/ni (i=1,---,k). â M ÊX aÑ p HI MLE, 
ny 
â=7 — fi, 
` E(t Dh — y)w Wy 
b= =, 
Elt -Dus 
i=1 
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其 中 , jy 和 分 别 为 加 权 平 均 , 即 j= 》 wj 不/》 un 和 t= Y uiti/》 wi. 这 时 模 
型 (11.3.1) 的 估计 为 = â + Bt; (i 二 1,… ,k). 剩余 平方 和 或 者 误差 平方 和 为 


k 
了 =》 (Ji — â — Bti)?wi 


i=1 


k 
-2 — Dwi— 6 > (ti — #)?uy. (11.3.6) 
对 于 9 es 0, 容易 得 到 Ee R? = (k — 1)0? — o? = (k — 2)o?, B 因此 ， 
1 
ê? = a 


为 o? 的 无 偏 估计 . 注意 到 在 Ho F, a 的 MLE 为 y. 由 式 (11.3.6), 
k k 
> wi — Y (fi — â — Êt) wi = PD (Hw, (11.3.7) 
i=1 i=l 
则 对 于 检验 问题 (11.3.5) 的 似 然 比 检验 统计 量 为 


k 
ty) == So (ti — Bui. (11.3.8) 
i=1 


因为 式 (11.3.7) 表示 了 直 和 分 解 , 则 ô 与 ô 是 独立 的 . 当 Ho 为 真 时 ， 


B k 
é DMs = t)2w; ~ N(0, 1), 


而 62/o? IRA BREA k — 2 分 布 的 x? 分 布 . 因此 , 有 下 面 的 定理 : 

定理 11.3.1 对 于 检验 问题 (11.3.5), 当 Ho AAW, H A (11.3.8) 给 出 的 似 然 
比 检验 统计 量 UY) 服从 自由 度 为 大 一 2 Ht 分 布 . KPa 的 似 然 比 检验 拒绝 Ho, 
如 果 tly) > to(k—2), 其 中 ,ta(k 一 2) 是 自由 度 为 天 一 2 的 上 上 分布 的 上 a 点 . 

例 11.3.2 用 Mantel 检验 来 分 析 例 11.3.1 曾经 研究 过 的 问题 . 令 ti = i (i = 

,4), 可 以 得 到 胖 型 和 瘦 型 Zucker 鼠 的 8 估计 分 别 为 69 = 3.2 和 BL = 2.8, 

=F t 值 分 别 为 tO = 0.32 和 tl = 0.28. 这 时 自由 度 为 2,a = 0.05 H t DARIE a 
点 为 2.9, 因此 , 均 不 能 拒绝 式 (11.3.5) 中 给 出 的 零 假设 Ho. 

利用 模型 (11.3.4), 虽然 参数 减少 了 , 但 是 如 何 决 定常 数 t; 却 是 比较 困难 的 . 由 
式 (11.3.8) 可 以 看 到 常数 t 对 计算 检验 统计 量 是 有 影响 的 . 在 实际 应 用 中 , 通常 有 
两 种 方法 来 处 理 ti 如 果 进 行 的 是 药物 数据 分 析 , 则 用 药物 剂量 来 代替 ti 如 果 无 
更 多 的 先 验 信 息 , 则 如 例 11.3.2 WH, >t =i (i =1,---,k). 下 面 讨 论 一 种 优化 的 
方法 . 
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2. 最 优 线性 检验 


为 了 讨论 方便 起 见 ， 先 考虑 o 是 已 知 的 , 不 失 一 般 性 , 令 o2 = 1. Hi = 
1,:-- k, 4 


ti—t 
VE -wj 
则 有 》 ciwi = 0， >》 Ruwi = 1. 这 时 由 式 (11.3.8) 给 出 的 似 然 比 检验 统计 量 可 以 
写 为 


k 
Tt. = > cefiwi, (11.3.9) 
i=1 


其 中 , c = (c1,… ,ck)'. 注意 到 cl < … < ce, 把 ce 的 特点 集中 起 来 构成 集合 , > 


k k 
S= fe E R* Y ciwi = 0, 》 wi =le<::-< a) , (11.3.10) 
i=l i=1 
则 Mantel 检验 中 的 系数 必然 是 S 中 的 一 个 点 . 下 面 来 寻找 最 优 的 系数 . 
现在 回 到 检验 问题 (11.3.2). 容易 检验 , 对 任意 9 e R* 满足 9 = … = O, 则 


Te ~ N(0,1). 因此 , Te 是 针对 检验 问题 
Ho :0,=-:-=0=0 和 H.:@€ne,n>0 (11.3.11) 


的 UMP 检验 . 对 于 给 定 的 水 平 a, VOCS 可 以 得 到 T. 的 势 函 数 为 


大 
gc,9)=1 一 5 (u a >A) . 
i=1 
称 使 得 最 小 势 达到 最 大 的 线性 检验 统计 量 To 为 最 优 线性 检验 , Bl co e 5 满足 
min 3(co, 8) = max min (c, 8), 
等 价 于 
min 2 oii = 2 (11.3.12) 
下 面 利用 式 (11.3.12) 求解 co. 
因为 S 能 写成 式 (11.3.3) 的 形式 ,也 构成 一 个 多 面体 凸 锥 , 因此 ,5 中 任意 
个 向 量 的 非 负 线 性 组 合 仍然 属于 S, 即 b,c e 5S 则 对 所 有 SOM > 0 有 
Xib+ AcE S. 事实 上 , S 也 可 以 看 成 是 由 棱 向 量 生成 的 . 一 个 向 量 e 被 称 为 5 的 


棱 向 量 (edge vector), WHR e 不 能 表示 为 5 中 与 e 不 在 同一 直线 上 的 两 个 以 上 向 
量 的 非 负 线 性 组 合 . 称 包含 棱 向 量 的 S 中 半 直 线 为 棱 . 可 以 验证 S 中 共有 一 1 个 
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棱 向 量 . $ ces, 则 ec 的 分 量 之 间 有 一 1 个 不 等 式 , 其 中 , 棱 向 量 应 当 满 足 分 量 
之 间 一 个 真 不 等 号 成 立 , 其 余 一 2 个 为 等 号 . 通过 计算 ,一 1 个 棱 向 量 为 

etm) = Amem,- emk) m= 1,- ,Kk—1, 
i Emi = —1/8m, 当 i < m 时 ; en = 1/{sk — Sm), 当 i > m 时 且 sm = 
wy +- wm 和 sk = wi 十 … wk Am 是 一 个 标准 化 参数 ,使 得 em e s. 
b,c € S, FA A(b,c) 表示 向 量 b 和 c ZARA, 定义 cos 4(b, c) = Xohi Ciwi. 
为 cos 函数 是 夹 角 的 单调 减 函 数 , 对 于 任意 给 定 的 S 中 的 向 量 c, 使 其 在 S 
最 大 角 的 向 量 b 必然 在 某 一 个 棱 上 . 因此 , 式 (11.3.12) 又 可 以 写 为 


k 


k 

min J cioe ™ wi =max min ` ceo wi. (11.3.13) 
lgmck-1¢ 1 c€S 1l1<m<k—1< 1 
i= i= 


可 以 验证 , 如 果 一 个 向 量 ao s S 且 能 表示 为 棱 向 量 的 正 组 合 , B 


G2 ne eed: (11.3.14) 
其 中 , mr > 0 (i = 1,… ,k 一 1), 并 满足 
k k 
》 aie Mu; = ++ = Y aef Mu, (11.3.15) 
i=l i=1 


则 这 个 向 量 a 满足 式 (11.3.12)， 解 方程 (11.3.14) 和 式 (11.3.15) 可 以 得 到 co = 


(co1;*** ,Cok)’, 
ee (Vein Taa) eee fe 5)) pp k (11.3.16) 
其 中 , so = 0 H 和 是 使 co es 的 标准 化 系数 . 这 样 , 当 o? 未 知 时 得 到 下 面 的 定理 . 
定理 11.3.2 ”对 于 检验 问题 (11.3.2), 最 优 线性 检验 为 


k 
1 
Teo(y) = = 2 coiviwi, (11.3.17) 


基 中 ， co 由 式 (11.3.16) 给 出 , 62 是 o? 的 无 偏 估计 , Bp ô? = Q,?/(n—k), QR? = 
ae 7:)?. 当 Ho 为 真 时 , Toly) MIA WHA n- ktt Dm. 
i=1 j=1 


例 11.3.3 ”继续 讨论 由 例 11.3.1 分 析 过 的 问题 . 由 式 (11.3.16) 可 以 得 到 


co = (一 0.7, -0.1.0.1, 0.7)’, 
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则 由 式 (11.3.16), TO = 0.75 和 TE = —0.48, 均 不 能 拒绝 由 式 (11.3.2) 给 出 的 Ho. 
事实 上 , 由 表 11.1 和 表 11.2 可 以 看 到 两 种 Zucker B% i= 3, 即 30 周 龄 时 进食 
量 最 大 , 因此 , R (11.3.2) 中 的 对 立 假设 应 为 


HY : 6; < 02 < 03 > 04. 
这 种 约束 被 称 为 使 形 半 序 约束 (umbrella order restriction). 一 般 写 为 
Hr:01 <S- Sbp 2- >, 
其 中 , 最 高 点 在 p 处 称 0p 为 峰 (peak). 对 于 这 种 约束 下 的 检验 问题 , Shi (1988b) HF 
究 了 最 优 线性 统计 量 , 这 时 最 优 系数 co = (co1,… :cok)' 满足 


coi = A (Veier si) — V Si(Sk 一 5)) /wi, i<p, 


cop 一 入 Cea 一 sp-1) 十 Vsp(sk 一 s) /wp, i=p, 
coi = À (Vsilse = si) ~ V3i-1(5k 一 si-1)) [wis i>p, 
其 中 , so = 0 H 和 是 标准 化 系数 . 对 于 这 个 例子 , 可 以 得 到 
co = (—0.38, —0.06, 0.82, —0.38)’. 


由 式 (11.3.16) 计算 , 得 到 TS (y) = 3.49 和 TL = 4.28. 这 时 自由 度 为 n 一 = 12, 
“4 a = 0.01 时 , to (12) = 2.68, 则 两 个 检验 均 很 显著 地 拒绝 由 式 (11.3.2) 给 出 的 Ho. 
当 对 立 假设 不 同时 , 分 析 结 果 会 有 很 大 差异 . 因此 , 合理 地 构建 检验 问题 对 统计 检 
验 是 十 分 重要 的 , 所 谓 “ 合 理 ” 是 指 要 符合 客观 问题 的 背景 . 由 这 个 问题 也 可 以 看 
到 , 定理 11.3.2 中 的 t 分 布 比 定理 11.3.1 中 的 上 分布 的 自由 度 要 大 很 多 , 这 是 因为 
定理 11.3.2 没有 假定 模型 (11.3.4). 设计 简单 的 模型 会 给 计算 带 来 方便 , 但 会 影响 
分 析 的 精度 . 


11.3.2 {WPA CLASES 


考虑 检验 问题 (11.3.2) 的 似 然 比 检验 . 仍然 假定 方差 是 相等 的 , 先 考虑 方差 已 
知 的 情况 . 这 时 的 对 数 似 然 函 数 为 


k ns 
~ 1 
(2;0)=— 2 > zaU- 8%)’ +e 
t=1 j=1 
1 k 1 k ni 
Dd — =<— „gy 
5-32 -0u ~ aga DD os FH) to 


i=1 i=1 j=1 


其 中 ， c 是 一 个 与 参数 0 无 关 的 常数 且 Wi = ni/o?. 在 五 0 F, BR 0 AY MLE 为 
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ðo = (9,.… ,DD), Y= > wes De (11.3.18) 
令 在 Hı F, 0 的 MLE X @ = (6:,--- ôk)’, MI ô c C HWA 
k k 
20: 一 全)?wi = min 2 — 0i) wi, (11.3.19) 


其 中 , C = {0 € RO, <- < On}. 这 样 , 求 Hi 下 的 8 的 MLE 转化 为 在 约束 条 件 
下 求 极 值 的 问题 . 在 处 理 这 一 类 问题 时 Kuhn-Tucker 方法 是 有 效 的 . 


1. Kuhn-Tucker 条 件 
有 时 也 称 为 Kuhn-Tucker 方法 , 这 是 一 种 特殊 类 型 的 Lagrangian RT. > 
h(y;0) 是 由 R” FIRM o 的 函数 , 称 之 为 目标 函数 , 其 中 , y 是 给 定 的 样本 值 . > 
h;(0) 为 9 的 函数 , 称 之 为 约束 函数 , 7 = 1,--- ,m. 现在 考虑 的 问题 是 求 下 式 的 解 : 
min h(y; 9), (11.3.20) 
其 中 , 参数 9 满足 约束 条 件 
hi(0) <0, j=1,---,m. (11.3.21) 


Kuhn 和 Tucker (1956) 指出 , go € R” 是 式 (11.3.20) 和 式 (11.3.21) 的 解 的 必要 条 
件 是 下 面 4 个 式 子 成 立 : 


0 m a | 
(1) ga, 20) + say ee 


(2) A;hj(80) = 0, 7 = 1,- 

(3) hj(00) <0, j =1,- 

(4) A; 20,7 =1,--- ,m, 
其 中 , 入 = (A1,… Am)! AW Lagrangian FOF. 通常 称 上 面 4 个 条 件 为 Kuhn-Tucker 
条 件 . 特别 是 当 目 标 函 数 和 约束 函数 均 为 凸 函 数 时 , Kuhn-Tucker 条 件 还 为 充分 条 
件 , 并 且 6 和 入 的 解 是 唯一 的 . 灵活 地 使 用 Kuhn-Tucker 条 件 可 以 得 到 一 些 好 的 
算法 . 现在 来 求 式 (11.3.19) 的 解 . 


2. Hi 下 的 MLE 
对 应 于 式 (11.3.20) 和 式 人 目标 函数 为 h(y; 9) = 》 (Wi 一 91)?wi; 约束 
函数 为 hi(0) = 0; — biz =1 ,一 1 则 可 以 得 到 Lagrangian 方程 为 


H(y;0,A) = P 和 + 
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这 时 的 Kuhn-Tucker 条 件 如 下 : 
(1) ( 砚 一 bu 一 和 二 Ni1 王 0，Xo 三 和 一 0 i= 1,--- , 
(2) Xi(b — G41) =0, 1 一 1 一 1 
(3) 6; — O41 <0, i=1,.. 一] 
AVA 0.. fae be 
因为 目标 函数 和 约束 函数 都 是 凸 函数 , 上 述 条 件 是 充分 必要 的 , 并 且 解 是 唯一 的 . 
为 了 计算 方便 起 见 , 对 1 入 5, 令 


Av(l, s) = Saws Do 
i=l i=l 
这 是 一 个 部 分 加 权 平 均 . 因为 现在 研究 的 是 取 自 连续 分 布 的 样本 , 不 失 一 般 性 , 假 
定 当 s 关 s' 时 有 Av(l,s) 4 Av(l, s’). & 6; ALA; 是 Kuhn-Tucker 条 件 的 解 , 则 由 条 
件 (4) 知 存在 1 < ty <i <- < ip < ity = k, WE 


由 条 件 (2) 和 条 件 (3) 知 6 = (Ôi, , 6k)' 满足 
6, =---= 6, < Êi =-- = 86, <3) < Gig = = Oe. (11.3.23) 
再 解 条 件 (1) 可 以 得 到 
6; = Avlit + lying), tet+1 <7 <i, 1=0,1,---,t, io =O. (11.3.24) 


因此 , 现在 的 关键 是 求 满足 式 (11.3.22) 的 下 标 集 {i1,--- , te}. 
引 理 11.3.1 4 i, HH (11.3.22) 或 式 (11.3.23) 给 出 , MG Ai 时 ， 


Av(1,i,) < Av(1, j). (11.3.25) 
证 明 ”已 经 假定 了 式 (11.3.25) 不 存在 相等 的 情况 . H (11.3.23), 40, =- -= 
6;, =O, O41 = m Âi = 0. 45 <i, IN, SAREE (1) 中 的 前 j 项 求 和 有 


了 
Cr = Dwi = Aj = 0. 
i=1 


HHA; > 0 可 解 得 4u(1,7 > 6 = Av(1,i1); 当 了 > 时 , 不 失 一 般 性 , Si <j< 
ig. 利用 上 面相 同 的 方法 及 式 (11.3.23) 有 4u(il +1,4) > ô > OO. 注意 到 对 于 正 
数 a,b,c,d, 如果 c/d > a/b, WA (a+c)/(b+d) > a/b, 可 以 得 到 Av(1,7) > Av(1, i1), 
从 而 得 到 式 (11.3.25). 
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与 引 理 11.3.1 同样 的 方法 , 可 以 得 到 确定 记 ,… , 的 方法 , 这 样 就 可 以 给 出 计 
算 9 的 MLE 的 算法 . 
(1) 下 集合 算法 (lower set algorithm). 
第 1 步 Bhi, 使 其 满足 
Av(1, i1) = min{Av(1, j)|1 < j < k}; 
第 !+1 步 寻找 ip, 使 其 满足 
Av(i + 1, i441) = min{Av(i; + 1; j)li + 1 <j <k} 
直到 得 到 下 标 集 {i ie}. 用 式 (11.3.24) 定义 8 的 MLE 为 = (01,… , 6)’. 
为 了 讨论 MLE 的 性 质 , 下 面 的 算法 也 是 有 用 的 , 其 证 明 也 可 以 由 引 理 11.3.1 
得 到 . 
(2) PAVA 算法 (pool adjacent violators algorithm). 
Bit 如 果 ye0O, 则 6=y; AN, 进行 第 2 步 ; 
第 2 步 存在 i, ER gi > Fir. È Hw = Ali it 1), wa = wi + wisn. 
对 Hiss ++, Yi-1, Wei), Vitor He 和 权 函 数 wi, +++ Wi- Wi), Wit e ,wk 重复 
上 面 两 步 , 直到 得 到 下 标 集 B1,… , Bi, 满足 
Av(B,) <… :< Av(B,), 
其 中 ， Av(B;) = yA Tie / 5 Wi (j = 1l,- $ jl). 这 时 如 果 iE B;, 则 
i€ Bj i€ Bj 
6; = Av(B;), j=1,.…,l. 


定理 11.3.3 (投影 定理 ) OER, RO ZX (11.3.19) 解 的 充分 必要 条 件 是 
OeC 且 


k 
》 (Hi — bi)biwi = 0, (11.3.26) 
t=1 


k 
NO (ji — 9:)0iwi <0, VO €C. (11.3.27) 


i=l 
证 明 ”如 果 9 是 式 (11.3.19) 的 解 , 由 式 (11.3.23), 4 i € {ir +1,- i1} 时 ， 
6; 为 一 个 常数 , 令 其 为 OY (1 = 0,1,… ,t) A io = 0, W (11.3.26) 可 以 写 为 


大 t ii 


Sow — ĝ;)ĝiwi = 5 Cr — 6;) 6:0; 


i=1 {=0 i,+1 


t t+ 
= oo SOW: _ ÂD Yw. 
l=0 


itl 


11.3 ”趋势 性 检验 . 321 . 


由 式 (11.3.24) 知 式 (11.3.26) 成 立 . 下 面 证 式 (11.3.27). 对 任意 9 < C, 由 凸 锥 定义 
对 任意 a > 0 有 8+a6 cC. 由 式 (11.3.19), 


k k 
DiGi — (Ôi + a0:)) wi > SOG: — Êi) w, 
i=l : 


i=1 


可 以 得 到 
a a 2 
dG — 0;)0iwi < 3 2 9 Wi. 


由 a > 0 的 任意 性 知 式 (11.3.27) 成 立 . 
RZ, 如 果 6 e C 且 满 足 式 (11.3.26) 和 式 (11.3.27), 则 对 任意 ge C 有 
k k k k 
Wi — b; wi =X (% — ĝi) wi + 2 》 (7: — 6;)(6; — 0i)wi + 》 (ô: — 0i) wi 
i=1 i=l 


i=l i=1 
k a 
> 》 (pi -ÂP wi, 
i=1 


BP Ô 为 式 (11.3.19) 的 解 . 

定理 11.3.3 阐述 了 一 个 向 量 向 一 个 多 面体 凸 锥 投影 的 充分 必要 条 件 . 令 y = 
(Jie Ge)’, WR ye C, WO = y, 结果 显然 ; WR y eC, 可 以 把 》, ziwi 看 成 
一 个 内 积 , 则 8 是 5 到 C 上 的 投影 , 因此 ,3 -0 与 0 HH, 即 可 以 得 到 式 (11.3.26). 
令 C* AC 的 一 个 对 偶 锥 (dual cone), 即 


天 
>》 aibiwi <0, WOE c} f 


t=1 


o= faen 


W 7-6 是 到 C* 上 的 投影 . 而 C 中 的 向 量 与 Ct 中 的 向 量 之 间 的 夹 角 均 大 于 2/2, 
则 式 (11.3.27) 成 立 . 
HR (11.3.26) AR (11.3.27) 容易 得 到 对 任意 ge C 有 
k k 
Y (vi -0i Pwi > 》 ô: — biJ wi, 
i=] 3=1 
则 对 任意 0 cCA 
k k 
Eo | >》 (Hi — 0i) wi | > Eo Bo — 0i) wi | , (11.3.28) 
i=l i=l 


虽然 9 不 是 参数 9 的 无 偏 估计 , 但 式 (11.3.28) 表明 8 的 均 方 误差 要 小 于 5 HY 
方 误差 . Lee (1981) 计算 了 这 个 差 值 , 并 且 证 明 式 (11.3.28) 对 每 一 个 i 都 是 成 立 的 ， 
BN Ee (5 一 0:)? > Eo(6; 一 09)? (i = 1,… k). 在 许多 文献 中 称 6 为 5 的 保 序 回归 


(isotonic regression). 
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3. 检验 统计 量 及 其 在 Ho 下 的 分 布 


现在 求 检验 问题 (11.3.2) 的 似 然 比 检验 统计 量 . 如 式 (11.3.18) 和 式 (11.3.19) 
所 示 , 令 ôo 和 6 分 别 为 在 Ho 下 和 Hi 下 的 MLE, 则 由 式 (11.3.17) 似 然 比 检验 统 
计量 等 价 于 


大 k 
—2(I(a; ĝo) — Ux; 8)) = J (vi — 9)?wi -Y (i — Ôi wi 
i=1 


i=1 


k k 
=) (Â; — g) wi +29 (Gi — ĝi) (Â: — Dwi 
i=1 


4 一 】 


其 中 , 第 二 式 的 第 二 项 为 零 是 根据 定理 11.3.3. 通常 记 这 时 的 似 然 比 检验 统计 量 为 
k 
V =) (Âi -g wi, (11.3.29) 
t=1 
当 x? 较 大 时 , 拒绝 Ho. 现在 计算 当 Ho 为 真 时 x? 的 分 布 . 
用 K 表示 下 标 集 , 即 K = {1,--- ,k}. 由 6 的 构成 知 存在 下 标 集 块 B1,… , Bi, 
使 得 Bi 门 B; = 2, iA#j; UB: =K. 由 PAVA 算法 可 以 得 到 


Av(B1) <:…: < Av(B)). 
S LRR K 被 分 割 为 具有 上 述 性 质 的 下 标 子 集 块 的 个 数 的 随机 变量 , 则 取 值 范围 
为 L=1(l=1,…,k). 令 
P(l,k) = P(L =l) (11.3.30) 


表示 为 Ho KL =1 的 概率 . 显然 》”P(1,k) = 1. 由 全 概率 公式 , 如 果 Ho 为 真 , 则 
当 c>0 时 有 


k 
P(x? > c) = X P(X? Be\L = 1) P(Y; (11.3.31) 
t=2 
当 c=0 时 有 
| P(x? = 0) = P(1, k). 
下 面 仔细 计算 这 些 概率 . 


引 理 11.3.2 令 台 = (21,… ,Zs) 是 服从 s 维 标准 正 态 分 布 的 随机 变量 , 令 
4 是 一 个 txs 的 实数 矩阵 , 则 对 任意 c> 0 有 


P(Z' Z>c |AZ>0) = P(Z'Z>c). 
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证 明 ” 作 极 坐标 变换 


Z1 =R sin Q], 
Zi = R cosay,:-:-cosa;_;sina;, i=2,:--,s—1, 


Zs = R cosal'…cosas -1. 


容易 验证 ZZ = R. 因为 条 件 AZ > 0 只 与 角度 a; ARK, 而 R 又 是 与 o; 独立 
的 , 因此 , 引 理 的 结论 成 立 . 

引 理 11.3.3 $ Vi, Ve 是 相互 独立 的 随机 变量 , 其 中 , Vi 服从 正 态 分 布 
N(6,1/b), 则 在 条 件 Vi <- < Ve FA 


Pai -P ~ x 
4=1 


证 明 PV = (V, , Vn)’, B = diiag(Vbi,--- , vbs), U = BV. & D = (dij) 
是 一 个 s x s 正 交 阵 , 其 中 , 最 后 一 行 元 素 为 dsj = /0;/,/9 bi (i = 1 ,3). 令 
Z = DU, 则 有 
2 3 一 | 
So bi (Vi -VyP=2'2Z-Z?= 5z, 
= i=1 


其 中 , Zi ~ N(0,1) (i =1,---, 8). & C 为 一 个 (s 一 1) x s HK, 


0 —1 1 0 0 
C= ; 
0 0 0 -1 1 


$ A=CB"'D', WV <- < V SUF AZ =CB-1D'DU = CV 20. 由 引 
HE 11.3.2 知 结论 成 立 . 

引 理 11.3.4 toR Ho AK, 当 荆 一 ! 给 定时 , O 的 条 件 分 布 为 Xa. 

证 明 ”对 总 体 的 个 数 用 数学 归纳 法 . 当天 = 1 时 , 问题 没有 意义 . 当 大 = 2 
时 , 分 两 种 情况 ;=1 或 1=2. 当 !=1 时 , 由 式 (11.3.29), x? = 0, 记 其 服从 x3 分 
Ai, 即 自由 度 为 0 的 x? 分 布 ; 当 1 = 2 时 , 页 < Go, 这 是 引 理 11.3.3 的 结果 . 

现在 设 上 = 和 一 1 时 结论 成 立 , 讨论 =m 的 情况 . 得 到 的 数据 可 以 分 为 下 面 
两 种 情况 : 

(1) 页 S SIm; 


(2) 存在 i, 使 得 gi > Jiya. 


. 324 - 第 11 章 ”约束 下 的 统计 推断 方法 
ne 


对 于 第 一 种 情况 , 可 以 直接 利用 引 理 11.3.3. 对 于 第 二 种 情况 , 由 PAVA 算法 ， 
令 
Ja = (wifi + wir Gi41)/ (Wi + wi+1). 
PY Y-F 与 Yu 是 分 布 独立 的 , 所 以 在 给 定 条 件 Yi —-Yin < 0 F, 页, 下- 
Yu, Paz ,Ym 是 相互 独立 的 . 这 时 只 有 mm 一 1 个 变量 , 由 归纳 假设 ， 结论 成 立 . 
由 式 (11.3.13) 和 引 理 11.3.4, 有 下 面 的 定理 ; 
定理 11.3.4 % Ho 为 真 时 , 对 c> 0 有 


k 
P(x? 2c) = >》 PU,k)P(X? 1 > c), 
l=? 


P(x? =0) = P(1,k), 


其 中 , x?_1 表示 服从 自由 度 为 1 一 1 的 X2 分 布 的 随机 变量 ,P(ij) HA (11.3.30) 
给 出 . 

一 般 地 , 称 定理 11.3.4 中 的 P(1,k) 为 水 平 概率 (level probability), 并 且 称 所 对 
应 的 下 标 集 的 分 块 B1,… , Bi 为 水 平 集 (level set). 下 面 讨论 如 何 去 求 水 平 概率 . 
先 从 一 个 具体 的 概率 讨论 , 然后 给 出 一 般 的 结果 . 

考虑 P(2,4). 这 需要 计算 4 个 均值 相等 的 正 态 总 体 的 样本 均值 被 下 集合 算法 
或 者 PAVA 算法 分 为 两 块 的 概率 . 显然 , 这 两 块 可 以 为 下 面 三 种 情况 : 

(1) Bi = {1}, B2 = {2, 3, 4}; 

(2) Bi = {1,2}, B2 = {3,4}; 

(3) Bı = {1, 2,3}, Bo = {4}. 

先 考 虑 第 (1) 种 情况 . 由 下 集合 算法 可 知 这 是 由 两 个 事件 组 成 的 , 即 

Di = {ğı < Av(1,2), ğı < Av(1, 2,3), Jı < Av(1, 2,3, 4)}, 

Dz = {ğ2 > J3, Av(2,3) > ga}. 
可 以 检验 这 两 个 事件 是 独立 的 . 分 别 用 P(2, 2; w, wz 十 wa 十 wa) 和 P(1, 3; w2, w3, w4) 
来 表示 这 两 个 事件 的 概率 , 则 第 (1) 种 情况 的 概率 可 以 表示 为 


P(2,2; w1, w2 + w3 + wa) P(1, 3; w2, w3, w4). 
同 理 , 第 (2) 种 情况 的 概率 为 

P(2,2; wi + wo, ws + w4)P(1, 2; w1,W2)P(1, 2; wa, wa), 
第 (3) 种 情况 的 概率 为 


P(2,2; wl + we + w3, w4)P(1, 3; w1, w2, w3). 
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用 (By) 表示 下 标 集 B; 中 元 素 的 个 数 . 由 上 面 的 分 析 可 以 得 到 


P(2,4) = ` P(2, 2; Bi, B2)P(1, c(B1))P(1, c(B2)), 
Loa 


其 中 , La 表示 上 面 的 三 种 情况 . 对 一 般 情况 有 


L 
P(L, k) = X` P(L, l; Bi, ++ , Bi) [[ PG, (Bi), 

Lik i=l 
其 中 , Ly 表示 用 下 集合 算法 把 k 个 总 体 的 样本 均值 分 为 1 块 B1,… ,Bi 的 所 有 可 
fe. 在 一 般 情况 下 , 这 个 概率 的 计算 是 很 困难 的 , 因为 从 上 面 的 分 析 中 知道 , 要 涉及 
概率 P( SY S- < Ye) 的 计算 . WRG Zi = Yiyi — Yi (i =1,… ,kk 一 1), 则 概 
率 可 以 表示 为 

P(Z1 > 0,… ,Zr-1 2 0). 


这 是 多 维 正 态 分 布 随 机 变量 取 值 于 第 一 象限 的 概率 , 通常 称 为 正 象 限 概率 (orthant 
probability), 数值 计算 也 是 比较 困难 的 .Sun (1988) 给 出 了 一 个 算法 ,可 以 计算 
k < 10 的 情况 . 
下 面 考虑 一 类 特殊 的 情况 , 即 在 w = … = wk 的 条 件 下 , 当 式 (11.3.2) 所 示 
的 Ho 为 真 时 , 计算 PÒL k) 的 值 . 这 时 可 以 把 y,… ,yn 看 成 独立 同 分 布 取 的 样本 . 
不 失 一 般 性 , 假定 y < … < yx. 这 时 用 下 集合 算法 或 者 PAVA 算法 , 得 到 k 个 
下 标 集 , 即 1 =k. & r(),…… nlk) 是 1,.… ,k 的 一 个 置换 ， 从 条 件 知 得 到 样本 
Yra ;Yr(k) 的 概率 是 相同 的 , 但 是 算法 必然 得 到 1! < k. 用 ral k) 表示 通过 所 有 
置换 由 算法 得 到 ! 个 下 标 集 的 个 数 , WA 
k 
Dr k)! = s(s + 1)---(s+k-1). (11.3.32) 
i=l 
下 面 用 数学 归纳 法 来 证 明 式 (11.3.32). 
4 k=2 Rf, X} yi < yo, (1) = 2,7(2) =1 61 =1;2(1) = 1,2(2) —2 H1=2, 
则 式 (11.3.32) 成 立 . 
假设 当天 = m—1 时 成 立 , Wie k = m 的 情况 ， 这 时 可 以 分 为 两 种 情况 : 
n(m) = m 和 n(m) = i, HP, i € {1,2,… m 一 1} 的 置换 个 数 为 ri(l,m) 和 
ra(l,m), WA 
r(l,m) =rı(l, m) + re(l,m). (11.3.33) 


对 于 第 一 种 情况 , 置换 只 在 前 m - 1 个 中 , 因此 , 由 归纳 假设 有 
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m m 
Xo rill,m)s! = — 1,m-— 1jam 
l=1 l=1 


m-l 


=8 > r(l,m— 1)s! 


l=1 
=s*(s+1)---(s +m-—2). 


对 于 第 二 种 情况 , 对 于 固定 ie {1,… ,m 一 1}, 置换 也 是 在 mm 一 1 个 中 ,用 (l,m 一 1) 
来 表示 所 有 置换 的 个 数 , 则 由 归纳 假设 有 


?70 一 1 7 一 1 


Y Do riGm-— vs! 


t=1 i=l i=l 
=(m—1)s(s + 1)---(s +m-— 2). 


由 式 (11.3.33) 可 以 得 到 式 (11.3.32). 
定理 11.3.5 Sy, ,yk 是 独立 同 分 布 取 自 连续 型 分 布 的 一 组 样本 ， 令 


P( k) 表示 由 下 集合 算法 得 到 1 个 水 平 集 的 概率 . 如 果 wi = -oo = wp, 则 PC, k) 的 
概率 母 函 数 为 
大 
Pi(s) = 》 P(l,k)s' = s(s +1) +-+- (s +k — 1)/k!. (11.3.34) 
i=l 


证 明 SY = (Yi,… Yr) 用 Py 表示 联合 分 布 , 该 分 布 是 关于 坐标 对 称 的 . 
用 Y* 表示 Y 的 顺序 统计 量 ，Py- 表示 Y* 的 概率 分 布 . 令 C = {y ER* ly. < yo 
<… < yn}. 显然 , Pr-(C) =1. 令 mm( Y2 5 Yk) 表示 水 平 集 的 个 数 , 则 有 


及 全 = f smu apy 


sg E | Oow meena ry. 


1 
= 人 


1 
= [9 +1) +k aP 
k! Jo 


= Gls +1).…(s+k—1), 
其 中 , 和 号 表示 对 所 有 置换 求 和 , 第 4 个 等 号 利用 了 式 (11.3.32). 


由 式 (11.3.34), 容易 计算 及 (s) = sPk-1(8)/k + (k — 1)Pp_-1(s)/k, 则 可 以 得 到 
下 面 的 结果 . 
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推论 11.3.1 当 wi = us = .= wy 时 , 水 平 概率 可 以 表示 为 


P(1,k) = 3 P(k,k) = i 


P(L, k) = =P(! ee ee pl,k ~ 1). (11.3.35) 
当 方差 未 知 时 , 仍然 假定 w = wa = …: = wk, WR (11.3.17). & 63 Al ô? 分 别 
为 o? Æ Ho Fl Hp UH, FES MLE, W 
k ni 
a = +5 Dwu -9) 
i=1 j=1 
k n 


EP, n= mn tnst tnp, @ = (Â, Âz, 0x)! 是 由 算法 给 出 的 9 在 Hou H, F 
的 MLE, 则 似 然 比 检验 统计 量 为 4 = (好 /63)3, 它 等 价 于 


利用 定理 11.3.3 可 以 得 到 


k ni 
> os -g = DB (yij — i)? + don (6; — 9)?. (11.3.36) 


i=1 j=1 i=1 j=1 
这 样 似 然 比 检验 统计 量 等 价 于 
O Sm- 
互 2 = a (11.3.37) 
2 ds — 9)? 


比较 式 (11.3.29), 式 (11.3.37) 的 分 子 为 X. 注意 到 式 (11.3.36) 表示 的 是 一 个 直 和 
分 解 , 则 右边 的 两 项 是 分 布 独立 的 . 类 似 于 定理 11.3.4 同样 的 证 明 可 以 得 到 下 面 的 
定理 : 

定理 11.3.6 ” 当 Ho 为 真 时 ,对 c>0 有 


P(E? > c) = Sr k)P(B 
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P(E? = 0) = P(1,k), 


其 中 , Bor 表示 服从 自由 度 为 s fot 的 Beta 分 布 的 随机 变量 , P(1,k) 由 推论 11.3.1 
给 出 . 

例 11.3.4 ”继续 分 析 由 例 11.3.1 提供 的 数据 . 假定 3? Al gh 分 别 服 从 正 态 分 
布 N(0°,02,) 和 N(0b, 02), i = 1,2,3,4. 考虑 检验 问题 , 针对 胖 型 鼠 的 是 


HÊ : 0 =09 =e =09 和 HE :60F <09 <69 < 02, (11.3.38) 
针对 瘦 型 鼠 的 是 
H? : 0 =e =0% =0} 和 HY: 0b < Ob < oF < oF. (11.3.39) 


分 别 计算 似 然 比 检验 统计 量 . 用 下 集合 算法 可 以 得 到 在 H, FAY OP A OF 的 MLE 


分 别 为 i 
6°: 634.75, 660.42, 660.42, 660.42, g° = 654.00, 


6: 467.75, 479.25, 508.00, 508.00, g! = 490.75. 
可 以 得 到 式 (11.3.37) 给 出 的 似 然 比 检验 统计 量 , DHA £2 = 0.12 和 E? = 0.35. 
因为 w = ws = ws = wa, 可 以 利用 定理 11.3.5 和 定理 11.3.6 计算 p 值 . 现在 k= 4, 
由 式 (11.3.35) 可 以 得 到 


1 1 
P(1,4) = A P(4, 4) = 54° 
1 3 UR AO Ss ES | 
P(2,4) = 5 P(1,3)+ 5P(2.3)=7-3+7-5 =u 
1 
PQ4)=1-3-a- =F 
这 样 可 以 得 到 p 值 分 别 为 


p° = P(E3, > 0.12) 
11 1 
= jaf (Fi > 0.12) + gr (Bs > 0.12) + 5g P (B32 > 0.12) 
= 0.186, 
p” = P(E? > 0.35) 
1 
213 2 0.35) + oat (Bs, > 0.35) 


因为 p° > 0.05, 因此 , 对 于 胖 型 鼠 来 说 , 年 龄 的 差异 对 于 进食 量 没有 本 质 的 影响 ， 
而 对 于 瘦 型 鼠 来 说 是 有 本 质 差 异 的 . 因为 瘦 型 鼠 是 参照 组 , 因而 说 明 某 种 隐 性 基因 
在 实验 组 中 是 起 作用 的 . 
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11.3.3 ”线性 秩 模型 
在 这 一 节 , 考虑 更 为 一 般 的 分 布 假设 . 考虑 如 下 模型 : 
Yij = bi + Eijs j=1, ,nai=1,.…,k. (11.3.40) 


现在 假定 si 独立 同 分 布 于 一 个 连续 分 布 函数 F(x), 并 且 P(x) 关于 零点 是 对 称 的 . 
由 式 (11.3.40), 可 以 认为 yar, +++. Yini 是 独立 同 分 布 取 自 F(z 一 0;) 的 一 组 样本 . 显 
然 , 这 类 分 布 包含 了 正 态 分 布 . 考虑 由 式 (11.3.2) 给 出 的 趋势 性 检验 , 即 


Ho:6,=---=0 和 硬 一 五 0， (11.3.41) 


其 中 , Hy: 0, < … < Op. 现在 需要 构建 基于 秩 的 检验 统计 量 . 
令 Tij 表示 Yij 在 混合 样本 


V11) Yini EL s Yen, 
中 的 秩 , > 7; = 》 rij/ni 表示 秩 的 平均 . 令 Ri; 和 Ri 为 对 应 于 ri 和 r: 的 随机 
变量 , 当 Hy 为 真 时 可 以 得 到 


EoR; = 3(N+ 1), 
R 1 
Voki = Tor N -mWN + 1), 


CVo(Ri, Rj) = -5 (N+ 1), (11.3.42) 


其 中 , N = ni 十 … 十 nk. 现在 考虑 极限 的 情况 , 并 假定 大 个 样本 量 是 依 同样 的 速度 
趋 于 无 穷 的 , 即 对 于 任意 ie {1,… ,对 , FE A € (0,1), 4 N 一 co 时 ,ni/N > Ai. 
对 于 给 定 的 a e R*, BAL 》 Xiai = 0，》 和 ia? = 1, 称 


Ta = 》 ai Ri (11.3.43) 


为 一 个 线性 秩 检验 (linear rank test). 
定理 11.3.7 ”如果 Ho AK, 则 当 N 一 ce 时 ， 


NW(0,1). (11.3.44) 
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由 式 (11.3.42) 有 EoT; = 0. 当 N 较 大 时 有 


2 
a; 

1 一 和 Ai)， 
T2), i) 


VoT; = 


1 EF a 
CVo(Ti, T;) = ~ guts t # j. 


因为 Vi2/NTs = VIZ Y ATi, 则 Bo V12/NTa = 0, 
l k k 2 
Vo(/12/NTa) = X` Aia? 一 65 va) = 1. 
i=1 i=1 


由 中 心 极限 定理 , 可 以 得 到 式 (1.3.44). 
考虑 检验 统计 量 Ta 的 Pitman 功效 ， 对 于 给 定 的 6 > 0 和 c e R*, 满足 
>》 ci 一 0, > Asc? =1, 建立 假设 


H(c): 06:=Bea/VN, i=1,-:-,k. 
类 似 于 定理 11.3.7 的 证 明 , ADB H(c) 为 真 , 则 当 N 一 oo 时 ， 


12 L 
fr. — + N(Ge(a,c), 1), 


k 
e(a,c) = Y Aac VT | f° (a)ane), (11.3.45) 
i=1 


其 中 ， 


f(z) 为 F(z) 的 密度 函数 ， 并 且 满 足 e(a,c) < œ. e(a,c) 为 检验 Ta 在 点 c 的 
Pitman 功效 . FHS 


o= {cert 


k k 
c S++ ck, > NG = 0, > Ac? = i} 
t=1 i=l 


对 应 于 检验 问题 (11.3.41), 显然 , 检验 统计 量 Ta 中 的 a 和 对 应 假设 H(c) 中 的 c 
都 应 当 满足 aesC 和 ce C. 令 B 表示 所 有 系数 属于 C 的 线性 秩 检验 的 集合 , 即 


p= fn 


称 Ta 为 最 优 线性 秩 检验 , 如 果 Ta € B, 且 满 足 


k 
Ty = So Adi Ri, b € c}. 


i=1 


min e(a, c) = max min e(b, c). 
cEC TpEB ceC 
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这 与 前 面 讨论 的 最 优 线性 检验 的 想法 是 一 致 的 , 因此 , 最 优 系数 a 满足 acc, 

k k 

min 2 入 iaQici = max min 2, 入 ipici. 
因此 , a = (ar, ,ak) 满足 
=ß (v si-1(sk 一 Si-1) 一 V 8i(Sk = si) /Xi 

其 中 , sm =A +--+: HAm,m 一 1 k, so = 0, 8 是 一 个 标准 系数 , 使 得 a € C. 
最 优 线性 秩 检 验 有 较 好 的 稳健 性 详细 的 讨论 可 以 参见 文献 (Shi, 1988b). 

11.4 小 结 


在 统计 科学 中 , 约束 下 的 统计 推断 方法 (statistical inference under order restric- 
tions) 至 今 仍 然 非 常 活跃 , 仍 有 许多 有 挑战 的 课题 . 这 方面 有 更 多 的 研究 课题 ， 读 
者 不 难 在 文献 中 找到 . 这 里 主要 考虑 k 个 独立 的 总 体 参数 被 序 约束 时 的 估计 和 假 
设 检验 问题 . 以 正 态 分 布 为 例 , 假定 个 总 体 为 N(0;,aio?), 其 中 , a; 已 知 , o? BH 
或 未 知 , i = 1 … ,k. 根据 实际 问题 的 不 同 , 有 时 均值 可 以 考虑 被 下 述 半 序 约束 : 


简单 半 序 : 0i S Og < +++ SO; 
FEF: 01< +++ < Op 2- DO 
简单 树 半 序 : 0, < 0;,i= 2,.…,k 
简单 环 半 序 : 0) <0; < OK, i =2 k-1 


Bartholomew (1959a, 1959b) 最 初 考虑 了 简单 半 序 下 的 似 然 比 检验 , 定理 11.3.5 中 
关于 概率 的 结果 是 Barton 和 Mallows (1961) 给 出 的 . Shi (1988a) 讨论 了 企 形 半 序 
约束 下 的 似 然 比 检验 , 给 出 了 当 上 < 10 时 的 水 平 概率 . Abelson 和 Tukey (1963), 
Schaafsma (1968) 讨论 了 简单 半 序 下 最 优 线性 检验 . Shi (1988b) 讨论 了 个 形 半 序 约 
束 下 最 优 线性 秩 检验 . 

关于 似 然 比 检验 的 总 结 可 以 参见 文献 (Barlow, et al., 1972; Robertson, et al., 
1988; Silvapulle and Sen, 2004). 关于 线性 检验 统计 量 的 研究 , 可 以 参见 文献 (Schaaf- 
sma and Smid, 1966; Shi, 1987; Akkerboom, 1990). 
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第 12 章 ”抽样 调查 : 研究 基础 与 未 来 发 展 
12.1 引 言 


抽样 调查 是 一 个 应 用 范围 非常 广泛 的 统计 学 分 支 , 它 主 要 研究 如 何 从 全 体 被 调 
查 对 象 ( 即 总 体 ) 中 抽取 一 部 分 ( 即 样 本 ), 以 及 如 何 根据 所 得 到 的 样本 数据 对 总 体 
的 目标 量 进行 估计 . 由 于 只 是 抽取 了 总 体 的 一 部 分 进行 调查 , 所 以 费用 省 、 时 效 性 
强 是 抽样 调查 的 两 个 基本 特点 . 也 正 因为 调查 的 只 是 总 体 的 一 部 分 , 因此 , 必然 会 
产生 一 定 的 误差 , 即 抽样 误差 . 为 了 把 误差 减 小 到 最 低 限 度 , 统计 学 家 们 提出 了 各 
种 抽样 方法 和 估计 方法 ，Bowley 最 先 提 出 了 简单 随机 抽样 法 (Rao, 1986). JAK, 
Tschuprow (1923), Neyman (1934,1938) 发 展 了 分 层 抽 样 与 多 相 抽 样 技 术 . 20 世纪 
40 年 代 前 后 , 抽样 理论 有 了 迅猛 的 发 展 . 在 英国 , Yates 和 Zacopancy (1935) 以 及 
Cochran 提出 了 比 估计 与 回归 估计 (Rao, 1986), Patterson (1950) 提出 了 连续 调查 
时 的 样本 轮换 理论 ; 在 美国 , Hansen 和 Hurwitz (1943) 以 及 Horvitz 和 Thompson 
(1952) 发 展 了 不 等 概率 抽样 理论 , 而 Madow 和 Madow (1944) 则 提出 了 实施 起 来 
十 分 方便 的 系统 抽样 法 ; 在 印度 , Mahalanobis (1944, 1946) 提出 了 整 群 抽样 法 、 多 
阶 抽样 法 以 及 控制 非 抽 样 误差 的 方法 ， 所 有 这 些 突出 的 成 果 构 成 了 现代 抽样 调查 
技术 的 基本 内 容 . 这 些 方 法 已 被 广泛 地 应 用 于 社会 经 济 和 科学 研究 的 各 个 领域 , 取 
得 了 令 人 满意 的 效果 . 自 文章 (Godambe, 1955) 发 表 以 来 , 关于 抽样 调查 的 推断 理 
论 也 有 了 较 大 的 发 展 , 这 方面 结果 的 总 结 可 参见 文献 (Cassel, et al., 1977). 

尽管 抽样 理论 的 发 展 已 趋 于 成 熟 , 但 随 着 计算 机 和 信息 技术 的 发 展 , 经 典 的 抽 
样 调 查 方法 遇 到 了 越 来 越 多 的 新 问题 , 这 同时 也 给 抽样 理论 的 进一步 发 展 提供 了 更 
加 广阔 的 空间 . 例如 , 计算 机 的 发 展 带动 了 计算 机 辅助 面 访 调查 (computer assisted 
personal interviewing, CAPT)\ 计算 机 辅助 电话 调查 (computer assisted telephone in- 
terviewing, CATT)、 计 算 机 辅助 自我 调查 (computer assisted self-interviewing, CASI) 
以 及 基于 互联 网 的 网 络 调查 等 新 的 调查 方式 的 出 现 和 发 展 . 另 一 方面 , 随 着 社会 经 
济 的 发 展 , 调查 涉及 的 领域 越 来 越 广 , 社会 结构 和 商业 市 场 需 求 越 来 越 复杂 , 各 级 
政府 部 门 、 商 业 和 学 术 机 构 越 来 越 多 地 依赖 于 调查 数据 进行 统计 分 析 , 以 帮助 作出 
正确 的 决策 . 这 些 都 给 抽样 调查 研究 带 来 了 新 的 问题 和 机 遇 . 

本 章 的 目的 是 对 抽样 调查 领域 的 若干 未 来 发 展 及 其 研究 基础 作 一 些 介绍 , 主要 
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包括 无 回答 、 计 量 误差 、 固 定 样 组 调查 、 小 域 估 计 与 多 层次 估计 、 计算 机 辅助 调查 、 
调查 数据 的 二 次 分 析 、 跨国 调查 以 及 多 指标 或 多 主题 抽样 与 估计 等 . 这 些 未 来 发 展 
领域 多 数 在 文献 (Kalton, 2003) 中 已 被 简单 提 及 , 应 该 说 已 基本 达成 共识 . 


1222 无 回答 


在 实际 的 抽样 调查 中 , 无 回答 (non-response) 现象 是 经 常 发 生 的 . 这 种 现象 产 
生 的 原因 多 种 多 样 , 主要 包括 由 于 联系 不 上 (如 未 能 找到 某 些 样本 单元 或 由 于 交通 、 
气候 等 原因 未 能 前 去 调查 ) 而 导致 的 无 回答 , 由 于 拒绝 合作 (如 调查 的 问题 涉及 个 
人 隐私 ) 而 导致 的 无 回答 , 以 及 由 于 不 能 参加 (如 语言 不 通 、 失 去 能 力 ) 而 导致 的 无 
回答 (Groves and Couper, 1998; ERES, 1998). 无 回答 常常 会 对 调查 结果 产生 比 
较 大 的 影响 . 一 方面 , 由 于 回答 与 不 回答 单元 常 有 较 大 的 差异 , 因而 对 总 体 目 标量 
的 估计 会 产生 偏 倚 ; 另 一 方面 , 无 回答 直接 导致 了 样本 量 的 减少 , 这 样 对 估计 晤 的 
方差 将 产生 影响 , 特别 是 在 无 回答 现象 很 严重 的 情况 下 , 甚至 没 法 给 出 可 靠 的 估计 . 

实际 调查 中 的 无 回答 一 直 是 困扰 调查 统计 工作 者 的 一 个 问题 . 不 幸 的 是 , 近年 
来 , 实际 调查 的 回答 率 一 直 呈 下 降 的 趋势 . 事实 上 , 现代 社会 由 于 人 和 群 较 大 的 流动 
性 、 社 会 治安 状况 等 因素 , 给 入 户 面 访 调查 带 来 了 许多 困难 . 而 移动 电话 的 广泛 使 
用 也 给 电话 调查 带 来 了 麻烦 . 至 于 调查 中 拒绝 合作 的 情况 就 更 普遍 了 . 目前 , 在 大 
多 数 发 达 国家 , 无 回答 率 的 上 升 在 电话 调查 中 表现 得 更 为 突出 , 极 少 有 电话 调查 的 
回答 比例 能 高 过 60% (而 一 些 面对面 的 调查 仍然 能 有 90% 的 回答 率 ). 对 于 固定 样 
组 调查 , 因为 跟踪 被 调查 者 的 难度 越 来 越 大 , 所 以 其 无 回答 现象 更 加 严重 . 不 过 由 
于 国情 不 同 , 中 国 与 大 多 数 发 达 国 家 在 不 同调 查 方式 的 回答 率 上 有 较 大 差别 : 国内 
调查 的 入 户 调查 及 其 他 面 访 的 成 功率 远 较 发 达 国 家 低 ; 而 电话 调查 的 成 功率 则 较 
发 达 国 家 稍 高 . 因此 , Groves 等 (2002) 认为 回答 率 下 降 可 能 是 过 去 10 年 里 抽样 调 
查 的 研究 者 面 对 的 最 严峻 的 问题 , 所 以 无 回答 是 今后 抽样 调查 研究 最 重要 的 问题 之 


处 理 无 回答 问题 主要 从 两 点 入 手 : 一 是 研究 回答 率 下 降 的 原因 , 以 便 对 无 回答 
进行 事先 预防 和 发 展 新 的 方法 以 提高 回答 率 ; 二 是 对 无 回答 进行 事后 补救 , 即 对 存 
在 无 回答 的 调查 数据 , 研究 出 适当 的 处 理 方法 , 以 对 总 体 目 标量 进行 准确 的 推断 . 

一 般 而 言 , 由 于 不 能 参加 而 导致 的 无 回答 是 一 种 无 意识 的 不 回答 , 相对 来 说 更 
容易 控制 , 其 危害 也 较 小 , 所 以 在 提高 回答 率 上 , 现在 的 工作 主要 是 提高 联系 到 样 
本 单元 的 概率 和 降低 被 拒绝 回答 的 比例 . 

在 提高 联系 样本 的 概率 方面 , 可 以 采用 多 次 访问 的 办 法 . 即使 接触 到 被 调查 者 ， 
说 服 他 们 参加 调查 也 可 能 不 是 一 件 容 易 的 事情 . 最 简单 、 最 常用 的 方法 是 提供 给 被 
调查 者 相应 的 奖励 . Church(1993) 关于 邮寄 调查 给 出 了 三 个 主要 的 结论 : 调查 前 给 
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奖励 比 调查 后 给 奖励 更 有 效 , 金钱 奖励 比 非 金钱 奖励 更 有 效 , 以 及 大 奖励 比 小 奖励 
更 有 效 . 而 关于 奖励 如 何在 调查 中 起 作用 , 调查 研究 者 也 给 出 了 一 些 理论 结果 , 如 
Groves 等 (2000) 认为 奖励 对 本 来 不 想 参加 调查 的 那 部 分 子 总 体 影响 最 大 , 使 他 们 
有 了 参加 调查 的 理由 . 在 我 国 , 取得 有 关 部 门 的 配合 、 事 先进 行 宣传 等 也 是 有 效 的 
手段 . 

另外 , 调查 问卷 和 问题 的 设计 等 都 是 需要 仔细 考虑 的 问题 , 因为 一 个 好 的 设计 
才能 吸引 被 调查 者 参与 调查 , 从 而 降低 无 回答 率 , 而 且 一 个 设计 得 好 的 调查 问卷 有 
助 于 被 调查 者 高 质量 地 完成 调查 . 而 对 于 涉及 高 度 私 人 秘密 的 问题 , 则 可 以 采用 随 
机 化 回答 技术 . 

未 来 , 由 于 回答 率 的 持续 下 降 , 而 且 导 致 回答 率 下 降 的 原因 也 越 来 越 复杂 ， A 
此 , 在 如 何 提 高 回答 率 的 问题 上 关注 会 越 来 越 多 . 

无 论 怎样 努力 , 完全 避免 无 回答 一 般 是 不 可 能 的 , 此 时 如 何 处 理 含 有 无 回答 的 
调查 数据 就 很 重要 了 . 下 面 是 一 些 常 用 的 方法 (Lessler and Kalsbeek, 1992; EAE 
等 , 1998): 

(1) 最 简单 的 方法 莫 过 于 什么 都 不 做 . 研究 者 可 能 认为 现 有 的 回答 率 已 经 能 满 
足 研 究 问题 的 需要 . 当然 在 回答 率 比较 高 的 调查 中 , 这 种 简单 的 做 法 有 时 的 确 会 是 
不 错 的 选择 , 但 面 对 越 来 越 低 的 回答 率 , 这 种 方法 的 使 用 越 来 越 需要 谨慎 . 也 可 能 
研究 者 假定 目标 变量 在 回答 层 和 不 回答 层 之 间 的 差异 很 小 以 至 于 可 以 忽略 , 但 这 个 
假定 在 很 多 情况 下 是 不 成 立 的 . 

(2) 替代 . 在 适当 的 情况 下 , 可 以 进行 样本 单元 替换 . 当然 , 采取 这 种 方法 需 十 
分 慎重 , 应 遵循 如 下 基本 原则 : 替代 者 与 被 替代 者 应 属于 同一 类 型 , 具有 相似 的 特 
征 . 

(3) 估计 潜在 的 偏 倚 . 调查 研究 者 首先 对 调查 所 得 的 回答 数据 进行 分 析 , 对 回 
答 者 和 无 回答 者 之 间 的 差异 (如 关于 辅助 变量 的 差异 ) 进行 比较 , 估计 可 能 有 的 偏 
t. 

(4) 对 无 回答 进行 适当 的 补救 . 可 以 采用 二 相 抽 样 法 : 对 无 回答 单元 进行 再 抽 
样 , 这 样 得 到 无 回答 子 样本 的 数据 ; 加 权 调 整 法 : 对 回答 数据 进行 加 权 调 整 ， 以 修 
正 由 于 无 回答 引起 的 偏 倚 ; 类 推 法 : 用 观察 到 的 与 无 回答 者 最 相近 的 回答 者 数据 进 
行 推测 ; FANE: 把 无 回答 数据 用 合适 的 估计 值 替 代 ; 模型 推断 法 : 对 无 回答 和 总 
体 的 结构 作 一 些 假定 , 建立 适当 的 统计 模型 , 然后 用 模型 来 预测 无 回答 的 这. 例如 ， 
Rubin (1977) 提出 了 用 Bayes 方法 对 样本 均值 进行 区 间 估 计 . 他 通过 假定 如 下 的 多 
元 线性 回归 模型 来 预测 样本 中 的 无 回答 均值 : 


Ygi = Bg X gi + Egi, (12.2.1) 


其 中 , i = 1,2,… ,n, egi ~ N(0,02) ,9 = 1 表示 样本 单元 已 回答 , 9 = 0 表示 无 
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回答 . 此 处 样本 单元 的 无 回答 值 是 利用 m = (91,07) 的 后 验 分 布 来 预测 的 ， 除了 
Rubin 的 模型 , Singh 和 Sedransk (1978) 提出 了 利用 辅助 变量 来 进行 Bayes HEMT, 
Cassel 等 (1983) 则 提出 了 处 理 无 回答 的 非 Bayes 模型 方法 等 . 

总 之 , 尽管 已 有 许多 方法 处 理 无 回答 问题 , 但 总 体 而 言 , 仍 不 能 令 人 满意 ,， 尚 
有 许多 问题 需要 解决 , 如 对 插 补 法 , 统计 分 析 方 法 的 使 用 常常 需要 假定 随机 缺失 机 
制 ; 而 调查 时 愿意 合作 的 人 仍 是 越 来 越 少 , 甚至 在 面 对 低 的 电话 调查 回答 率 方面 ， 
Collins 和 Sykes (2003) 提倡 握 弃 概率 抽样 , 倾向 调查 那些 愿意 参加 的 被 调查 者 , 并 
用 他 们 偏爱 的 方式 来 收集 数据 . 


12.3 国定 样 组 调查 


园 定 样 组 调查 (panel surveys) 是 将 同一 样本 用 于 一 项 持续 多 次 的 连续 调查 中 . 
这 种 调查 方式 可 以 获得 关于 固定 样 组 的 不 同时 间 点 的 数据 .由 于 社会 经 济 中 对 动 
态 调查 分 析 研 究 , 如 分 析 数 据 的 变化 以 及 变量 在 不 同时 间 点 的 关系 等 的 需求 越 来 
RS, 固定 样 组 数据 的 获得 显得 越 来 越 重要 . 固定 样 组 数据 的 来 源 主要 有 4 个 方面 
(Trivellato, 1999): © 官方 的 固定 样 组 数据 ; @ 一 次 性 的 横 截面 调查 (或 称 期 调查 )， 
而 该 调查 收集 了 之 前 很 长 一 段 时 间 的 相关 信息 ; @ 固定 样 组 调查 ; @ 综合 以 上 三 种 
方式 . 然而 , 官方 的 固定 样 组 数据 一 般 是 有 限 的 , 很 多 目标 总 体 或 目标 总 体 的 一 些 
特性 在 官方 记录 里 并 没有 , 而 一 次 横 截 面 调查 中 , 被 调查 者 很 多 情况 下 难以 回忆 以 
前 很 长 时 间 的 信息 , 所 以 通过 一 次 调查 来 收集 以 前 很 长 一 段 时 间 的 信息 难度 是 非常 
大 的 . 因此 , 现实 中 很 多 情况 下 就 需要 通过 固定 样 组 调查 来 提供 固定 样 组 数据 , 也 
就 是 说 , 固定 样 组 数据 的 一 个 主要 来 源 就 是 固定 样 组 调查 . 这 种 调查 方法 最 近 一 二 
十 年 来 已 有 较 多 的 应 用 . 例如 , 在 许多 国家 都 开展 了 仿效 密 西 根 大 学 PSID (panel 
study of income dynamics) 的 住户 样 组 调查 . RE REE 调查 与 城镇 劳动 力 调 
查 等 也 基本 上 采用 了 固定 样 组 调查 方法 . 

但 是 对 eS a eee et ARN ARA: 二 个 
主要 问题 就 是 由 于 被 调查 者 要 被 反复 地 多 次 调查 , 很 多 人 会 觉得 负担 太 重 而 不 耕 意 
接受 调查 , 从 而 拒绝 回答 或 敷衍 了 事 给 出 不 真实 的 回答 , 这 就 是 所 谓 的 样本 疲劳 或 
样本 老化 现象 . 另 一 方面 , 由 于 现代 社会 人 的 流动 性 很 大 , 经 常会 发 生 样本 单元 无 
法 找到 的 情况 . 例如 , 在 我 国 交通 运输 量 的 抽样 调查 中 , 经 常会 出 现 找 不 到 车 主 的 
情况 . 如 果 这 些 情况 是 随机 发 生 的 , 那 一 般 只 会 影响 到 估计 的 有 效 性 , 但 现实 中 常 
常 不 是 随机 地 发 生 , 这 时 很 可 能 会 带 来 估计 的 偏 倚 , 而 且 这 种 偏 倚 很 难 通过 加 权 等 
简单 的 修正 得 以 取消 (Heckman, 1979). 在 固定 样 组 调查 中 需要 注意 的 另外 一 个 问 
题 是 由 于 在 调查 中 , 同样 的 问题 会 被 重复 地 调查 , 这 样 当期 的 回答 很 可 能 受到 之 前 
几 期 的 影响 , 这 种 现象 称 为 固定 样 组 适应 (panel conditioning), 它 会 引起 固定 样 组 
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设计 的 偏 倚 . 计量 误差 也 是 固定 样 组 调查 中 需要 重点 注意 的 一 个 问题 , 因为 在 一 般 
情况 下 , 计量 误差 对 分 析 固 定 样 组 数据 的 变化 及 不 同时 间 点 变量 之 间 的 关系 比 直接 
分 析 一 次 横 截 面 数 据 影 响 更 大 , 并 且 固定 样 组 调查 相对 复杂 一 些 , 相应 地 出 现 计量 
误差 的 机 会 也 会 更 多 些 (Trivellato, 1999). 最 后 , 在 固定 样 组 调查 中 , 一 个 特别 需要 
注意 的 问题 是 总 体 的 变化 , 因为 几乎 每 个 总 体 的 构成 成 分 都 会 随时 间 而 变化 , 如 新 
的 单元 加 入 或 旧 的 单元 离开 (Duncan and Kalton,1987). 

因此 , 如 何在 设计 调查 时 降低 不 回答 率 、 减少 计量 误差 和 固定 样 组 适应 效应 、 
处 理 总 体 的 变化 以 及 在 分 析 调 查 数 据 时 如 何 修正 它们 , 都 成 为 固定 样 组 调查 很 重要 
的 研究 课题 . 关于 固定 样 组 调查 中 的 期 无 回答 , 感 兴趣 的 读者 可 参见 文献 ( 涂 玉 娟 ， 
2006). 

克服 样本 老化 和 减 小 固定 样 组 适应 效应 的 一 个 值得 推荐 的 办 法 是 采用 样本 轮 
换 方法 , 即 每 期 对 部 分 样本 单元 进行 轮换 . 这 种 方法 在 实际 的 调查 中 已 被 广泛 使 用 ， 
其 一 般 理 论 可 参见 文献 (Cochran, 1977). 对 于 有 辅助 信息 可 利用 的 情形 , 可 参见 文 
献 (Sen, 1972, 1973; Feng and Zou, 1997). 借助 于 超 总 体 模 型 研究 样本 轮换 方法 , 目 
前 也 有 一 些 结果 , 如 文献 (Singh and Priyanka, 2007) 等 ， 当 然 , 严格 地 说 , 基于 样 
本 轮换 的 调查 不 属于 固定 样 组 调查 , 因为 有 些 样本 单元 不 是 在 整个 调查 期 内 都 被 调 
查 . 它 可 以 看 成 是 固定 样 组 调查 的 一 个 变种 . AR, 对 样本 轮换 方法 , 也 会 遇 到 找 
不 到 样本 单元 等 各 种 问题 , 这 需要 今后 进一步 的 研究 . 在 这 方面 的 一 个 成 果 可 参见 
文献 (Zou, et al., 2002). 

此 外 , 在 实际 的 固定 样 组 调查 中 , 为 了 获得 更 多 的 额外 数据 , 常 在 每 期 核心 数 
据 之 外 , 再 在 不 同期 附加 局 部 模块 , 以 便 获 得 所 需要 的 额外 数据 . 这 种 方法 有 两 个 
优点 : 其 一 是 增加 了 固定 样 组 数据 的 可 分 析 潜 力 ; 第 二 是 额外 数据 可 以 帮助 争取 到 
更 多 的 资金 , 以 支持 成 本 高 的 固定 样 组 调查 . 然而 , 收集 额外 数据 会 增加 复杂 度 , 同 
时 也 更 加 重 了 被 调查 者 的 负担 , 从 而 使 被 调查 者 回答 的 数量 减少 . 因此 , 在 固定 样 
组 调查 中 , 要 注意 避免 因 过 多 的 需求 而 使 被 调查 者 的 调查 负荷 过 重 (Kalton, 2003). 


12.4 小 域 估计 


在 一 次 大 型 的 社会 经 济 调查 中 , 人 们 最 关心 的 是 有 关 总 体 目标 量 的 估计 问题 ， 
抽样 设计 也 会 围绕 这 些 目 标量 的 推断 而 进行 . 然而 在 实际 工作 中 , 除了 总 体 目 标量 
Bh, 人 们 还 关心 总 体 中 具有 某 种 特殊 性 质 的 部 分 单元 所 组 成 的 子 总 体 (如 某 个 较 小 
的 地 理 区 域 或 具有 某 些 特殊 人 口 特征 的 子 总 体 ) 的 统计 信息 . 如 何 利用 现 有 调查 信 
息 在 既 获 得 总 体 目标 量 的 准确 推断 的 同时 ， 又 能 获得 这 样 的 子 总 体 目标 量 的 准确 
估计 , 不 仅 是 我 国 统计 调查 中 过 到 的 难题 , 也 是 世界 范围 内 面临 的 挑战 . 像 这 样 需 
要 单独 给 出 估计 , 但 又 不 能 作为 层 处 理 的 子 总 体 称 为 域 , 也 称 为 研究 域 (domain of 
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study)， 而 规模 很 小 的 域 , 既 包括 地 理 上 的 小 区 域 , 也 包括 总 体 中 按照 某 种 特性 划 
分 出 的 一 个 很 小 的 子 总 体 , 常 称 为 小 域 (small domain, small area). 对 于 域 , 特别 
是 小 域 , 由 于 落 入 其 中 的 样本 量 通常 很 小 (甚至 可 能 为 零 ), 因此 , 对 它 进 行 估计 难 
度 很 大 . 历史 上 , 对 小 域 估 计 (small area estimation) 的 研究 很 早 就 出 现在 人 口 统计 
中 . 近年 来 , 对 小 域 统计 的 需求 , 无 论 在 区 域 政策 的 制定 还 是 商业 决策 上 都 越 来 越 
多 . 与 (小 ) 域 估 计 相 关联 的 另 一 个 问题 是 多 层次 估计 问题 , 即 在 一 次 调查 中 除了 
主要 目标 量 (WER) 外 , 同时 需要 解决 多 层次 (如 省 、 市 、 县 区 、 乡 镇 ) 目标 量 的 
估计 问题 , 以 满足 各 级 政府 部 门 管理 决策 的 需要 . 此 时 所 遇 到 的 问题 与 小 域 的 估计 
问题 相 类 似 , 即 到 下 一 级 或 几 级 时 样本 量 可 能 很 小 或 没有 . 这 些 都 是 当今 国际 上 抽 
样 调 查 领 域 的 重要 前 沿 方向 . 

下 面 介 绍 域 与 小 域 估 计 的 一 些 常 用 方法 (Rao, 2003; 丁 文 兴 , 2005). 

域 和 小 域 估 计 的 传统 方法 主要 是 基于 抽样 设计 提出 的 . 最 近 一 二 十 年 来 , 对 该 
问题 的 研究 已 经 由 过 去 主要 基于 抽样 设计 的 方法 研究 转 入 现在 主要 以 模型 为 基础 
的 方法 研究 . 这 样 的 模型 建立 了 抽样 理论 与 统计 学 其 他 分 支 联系 的 桥梁 , 因此 , 传 
统统 计 学 中 的 各 种 模型 , 如 回归 模型 和 时 间 序 列 模型 , 以 及 各 种 估计 方法 , 如 最 佳 
线性 无 偏 估计 (或 预测 ) 法 、 极 大 似 然 法 、Bayes 方法 等 , 都 被 应 用 于 其 研究 中 . 这 
种 方法 的 优势 也 因为 与 其 他 统计 学 分 支 的 密切 结合 而 得 到 了 较 好 的 体现 . 


12.4.1 ”基于 抽样 设计 的 小 域 估计 方法 


与 基于 模型 的 方法 不 同 , 这 种 方法 不 依赖 于 具体 的 模型 假定 , 因此 , 关于 模型 
常常 是 稳健 的 . 


1. 直接 估计 法 

直接 估计 法 , 即 直接 利用 落 入 域 中 的 样本 对 域 进 行 估计 , 它 适用 于 落 入 域内 的 
样本 量 足够 大 的 情形 . 

最 基本 也 是 最 常见 的 直接 估计 量 是 下 面 的 Horvitz-Thompson 估计 量 : 


Gaunt = >_> ye/ Te: 
k€Sa 

其 中 , a(= 1,2,… , 4) 表示 第 a PR, ne 为 单元 k 的 入 样 概率 , sa 是 落 入 第 a 个 
域内 的 子 样本 . 其 他 的 直接 估计 量 , 还 有 事后 分 层 的 HT 估计 量 、H-T 型 比 估计 量 
以 及 广义 回归 估计 量 等 . 

2. 合成 估计 法 

该 方法 是 用 大 总 体 的 估计 量 协助 产生 小 域 的 估计 量 , 所 以 它 是 一 种 间接 估计 方 
法 . 这 种 方法 通常 需要 或 隐 含 一 定 的 假设 条 件 . 


- 340 . 第 12 章 ”抽样 调查 : 研究 基础 与 未 来 发 展 


以 回归 合成 估计 为 例 . 假设 每 个 小 域 都 有 以 总 量 Xe 的 形式 给 出 的 辅助 信息 ， 
则 如 下 的 估计 量 称 为 回归 合成 估计 量 : 


i GRS 一 XB, 


其 中 , B 由 下 式 定义 : 
1 
B = (x nae) (x: ounce) 。 
该 估计 量 的 偏 倚 为 
Bias(Z crs) ~ X; (B — Ba), 
其 中 ， 


B= (x nasa) b> numer] 》 
U U 


g —1 
Ba = (£ nasa) (£ name) š 
Ua Ua 


当 假设 条 件 B = Ba 成 立时 , 估计 量 Ya crs 的 精度 可 以 达到 广义 回归 估计 量 
Yor = XB 在 样本 足够 多 的 大 域 上 达到 的 精度 . 
当 辅 助 变量 zx 为 单 变量 时 , 令 ck = zx, 则 估计 量变 为 如 下 的 比 合成 估计 量 : 


YY 
,rs = Xa=. 
RS x 


该 估计 量 需 要 或 隐 含 的 假设 条 件 为 R= Ra, 其 中 , R= Y/X,Ra = Ya/Xa. 当 这 个 
条 件 成 立时 , 估计 量 Yarns 的 精度 可 以 达到 比 估 计量 Yr = X(Y/X) 在 样本 足够 多 
的 大 域 上 达到 的 精度 . 

3. 组 合 估 计 法 


由 上 面 的 介绍 可 知 , 使 用 直接 估计 量 并 不 需要 借助 于 大 总 体 , 因此 , 额外 的 假 
设 条 件 是 不 需要 的 , 但 对 小 域 的 估计 , 因为 落 入 其 中 的 样本 量 一 般 很 小 , 使 用 直接 
估计 法 会 导致 较 大 的 方差 ; 而 合成 估计 量 虽 然 在 假定 的 条 件 被 满足 时 估计 效果 会 较 
好 , 但 它 对 所 假定 的 条 件 非 常 敏感 , 当 这 些 条 件 不 满足 时 , 往往 会 产生 非常 大 的 偏 
倚 . 因此 , 一 个 自然 的 想法 就 是 将 直接 估计 量 与 合成 估计 量 进行 加 权 平 均 而 得 到 如 
下 的 组 合 估计 量 : 

Ya;com = ¢aYa + (1 — ¢a)Yas: 

其 中 , Y, 为 某 个 直接 估计 量 , 到 。 为 某 个 合成 估计 量 , 权 数 pa € [0,1]. 这 样 问题 就 
变 成 寻找 最 优 的 ba, 使 得 MSE(Ya:com) 达到 最 小 . 
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4. James-Stein 型 估计 量 


这 是 一 种 特殊 的 组 合 估计 量 , 由 Purcell 和 Kish (1979) 提出 . 他 们 的 方法 是 对 
所 有 小 域 估计 量 的 MSE 之 和 YL MSE(Ya;com) 关于 一 个 公共 权 数 6; = o 进行 极 


小 化 , 从 而 得 到 James Stein 型 组 合 估计 量 ， 这 一 公共 权 数 下 的 组 合 估计 量 , 尽管 
不 能 保证 对 每 个 小 域 的 估计 效果 最 佳 , 但 能 保证 对 所 有 小 域 的 整体 估计 有 较 好 的 
效果 . 

另 一 方面 , 汉 士 玛 和 秦 怀 振 根据 我 国 国情 提出 了 一 种 样本 追加 策略 ， 以 满足 
多 层次 推断 的 需要 . 该 方法 已 在 我 国 第 二 期 妇女 社会 地 位 调查 及 国家 统计 局 的 批 
发 、 零 售 业 调查 中 得 到 应 用 , 参见 文献 GILES, 2001; 秦 怀 振 , 2003; 李 莉 莉 等 ， 
2004). 样本 追加 策略 的 主要 思想 是 按 某 种 特定 的 概率 抽样 , 从 总 体 中 抽取 基本 样本 
对 总 体 (以 及 作为 子 总 体 的 层 , 如 果 进 行 分 层 抽样 的 话 ) 进行 估计 ; 但 对 于 特定 的 域 ， 
基本 样本 落 入 该 域 中 的 单元 一 般 很 少 , 因此 , 不 能 直接 对 域 的 目标 量 进行 推断 . 为 
此 , 在 域内 再 按 某 种 方法 抽取 部 分 单元 作为 追加 样本 , 然后 和 该 域 中 的 基本 样本 相 
结合 , 以 对 域 的 目标 量 进行 推断 . 关于 样本 的 追加 , 主要 有 两 种 方式 : 放 回 追加 和 不 
放 回 追加 . 追加 抽样 是 指针 对 总 体 推断 的 基本 抽样 完成 后 , 再 对 域 进行 的 额外 抽样 : 
放 回 追加 是 指 在 域内 进行 追加 抽样 时 , 将 属于 域 的 基本 样本 单元 全 部 放 回 , 对 域 中 
的 所 有 单元 进行 抽样 ; 不 放 回 追加 是 指 进行 追加 抽样 时 只 在 域 中 基本 样本 以 外 的 单 
元 中 进行 抽样 . 秦 怀 振 (2003) 主要 研究 了 放 回 追加 . 放 回 追加 策略 操作 简便 、 样 本 
兼容 , 但 域 中 的 单元 在 基本 抽样 和 追加 抽样 中 可 能 被 重复 抽 中 . 显然 , 重复 样本 在 调 
查 中 不 能 提供 额外 的 信息 , 因而 这 种 重复 在 某 种 程度 上 会 影响 估计 量 精度 的 提高 ， 
而 且 一 般 也 不 易 被 实际 工作 者 所 采用 .为 此 , 李 莉 莉 等 (2007) 考虑 了 不 放 回 追 加 
策略 . 

样本 追加 设计 方法 要 求 有 现成 的 抽样 框 且 目 前 主要 是 建立 在 一 些 相对 简单 的 
抽样 设计 上 . 如 果 对 所 研究 的 小 域 没有 现成 的 抽样 框 , 如 何 进行 样本 追加 是 需要 仔 
细 研 究 的 ; 而 对 于 更 复杂 的 抽样 设计 以 及 与 其 他 方法 , 如 基于 原 小 域内 样本 的 直接 
估计 与 基于 追加 样本 的 估计 之 加 权 平 均 的 比较 也 是 值得 进一步 研究 的 问题 . 
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根据 模型 中 所 能 利用 的 辅助 信息 的 层次 , 小 域 估计 模型 可 以 分 为 两 大 类 : 小 域 
层次 模型 和 单元 层次 模型 .前 者 主要 适用 于 只 能 利用 小 域 层次 的 汇总 数据 作为 辅 
助 信息 的 情形 , 而 后 者 适用 于 每 个 单元 的 辅助 信息 均 可 行 的 情形 . 例如 , 如 果 要 估 
计 某 个 县 内 学 龄 儿童 在 学 的 总 人 数 , 则 该 县 的 总 人 口 数 就 是 一 种 可 以 被 利用 的 小 域 
层次 的 辅助 信息 ; 而 每 个 家 庭 的 入 数 、 经 济 状况 和 父母 受 教育 的 程度 等 就 是 单元 层 
次 的 辅助 信息 . 以 下 分 别 对 两 类 模型 予以 简单 介绍 . 
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1. 基本 的 小 域 层次 模型 


假定 9; = 9 Yi) 为 第 i 个 小 域内 总 体 均值 Y: 的 函数 , 并 且 9; 与 相关 的 小 域 层 
次 辅助 信息 zi = (wa, zi2,… ,zip) 之 间 有 如 下 的 线性 关系 : 


+ 
Oi = zip + Zitti, i=1,2, ,m™m, 


其 中 , m 为 小 域 的 个 数 , z; 为 已 知 的 正常 数 , B= (A, B82,… bp) 为 回归 系数 向 量 ， 
ui 为 独立 同 分 布 的 小 域 效应 且 满足 


E(u;)=0, Var(u;) = 02. 
6; = bi + ci, i= 1,2, m, 


其 中 , e; 为 抽样 误差 , 相互 独立 , 并 满足 E(e;|0;) = 0, Var(ei|9;) = pi, 此 处 yi 为 已 
知 常数 . 这 样 就 得 到 如 下 的 小 域 层 次 模型 : 


6, = 28+ 2uj+e;, i1=1,2,--+,m. (12.4.1) 


在 模型 (12.4.1) 中 , 一 般 也 假定 抽样 误差 e; 和 模型 误差 w 相互 独立 . 

2. 基本 的 单元 层次 模型 

假设 对 每 个 小 域内 的 单元 都 有 辅助 信息 zij = (Tiji, zij2，,… ,zijp) 可 以 利用 ， 
其 中 , i = 1,2,… ,m 表示 第 i 个 小 域 , 7 = 1,2,… ,Ni 表示 第 i 小 域内 第 ; 个 单元 ， 
zij 为 辅助 变量 在 (i,j) 单元 上 的 取 值 . 建立 目标 变量 wj 与 辅助 变量 zi 之 间 的 如 
下 模型 : 

Yij = Zijp + Ui + eij, (12.4.2) 

其 中 , esj 为 误差 项 , 与 u 相互 独立 , 满足 E(eij) =0, Var(e;;) = kyo?, 而 ky 为 已 
知 的 正 值 常数 , i = 1,2,… ,m, 7 = 1,2,… , Ni. 这 样 就 得 到 了 最 简单 的 线性 形式 的 
单元 层次 模型 . 

比较 式 (12.4.1) 和 式 (12.4.2) 可 以 明显 看 出 小 域 层 次 模型 与 单元 层次 模型 的 区 
Al: 前 者 只 对 i = 1,… ,m 建立 , 而 后 者 也 包括 了 ; = 1,… ,Ni 的 情形 . 

目前 , 对 基本 的 小 域 模型 有 许多 推广 模型 , 但 多 数 是 线性 混合 效应 模型 的 特例 ， 
这 里 就 不 一 一 介绍 了 . 总 之 , 发 展 新 的 适合 描述 各 类 数据 的 小 域 模型 是 一 个 有 意义 
的 研究 课题 . 


在 有 了 小 域 模型 之 后 , 如 何 进行 相应 的 推断 也 是 需要 研究 的 . 目前 , 主要 有 如 
下 方法 : 
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(1) 最 佳 线 性 无 偏 预测 (BLUP) 方法 . 考虑 如 下 的 一 般 线 性 混合 效应 模型 : 
y= XB+ Zu+e, 


其 中 , y 为 观测 向 量 , B 为 非 随机 的 未 知 参数 向 量 , X 和 2 分 别 为 已 知 的 nxp 和 
n x q 阶 列 满 秩 设计 阵 , u 为 随机 效应 向 量 , e 为 随机 误差 向 量 , u 和 e 相互 独立 且 
满足 E(u) = 0, E(e) = 0, Var(w) = 0?G, Var(e) = o° R, 而 G 和 R AEIR, HK 
赖 于 参数 5 = (51,62,… ,6,), 0? 为 正 值 常数 . BR, 这 个 模型 包含 了 模型 (12.4.1) 
和 (12.4.2) 作为 特例 , 它 在 经 济 、 生物 、 农 业 、 环 境 、 医 药 等 学 科 的 研究 中 具有 广泛 
的 应 用 , 在 文献 中 已 被 大 量 研究 . Henderson(1950) 首次 在 这 个 模型 下 提出 了 参数 的 
BLUP 理论 . 这 里 主要 感 兴趣 于 预测 8 和 w 的 线性 函数 p = LB + s'u, 由 此 很 易 
获得 小 域 均值 的 估计 . 
假定 6 已 知 , Henderson(1950) 给 出 了 如 下 u AY BLUP: 


i= t(6,y) =VB+s'GZ'V'(y — XP), 


其 中 , V =V(6) = R+ ZGZ', iii B= B(6) = (XVX) XV y 为 p 的 最 佳 
线性 无 偏 估 计 , u= ül) = GZ'V-(y — XB) X u 的 BLUP. 

(2) 经 验 最 佳 线性 无 偏 预测 (EBLUP). 如 上 所 述 , BLUP t(6, y) 依赖 于 参数 ô, 
而 在 很 多 情况 下 , 6 是 未 知 的 , 这 样 就 需要 对 它 进行 估计 . 在 (6, y) 中 , 用 其 估计 量 
6 代替 6, 得 到 的 相应 的 t(6,y) 即 为 EBLUP. 这 样 , 对 于 EBLUP, 如 何 估计 6 是 
一 个 重要 的 研究 工作 . 主要 方法 有 方差 分 析 估 计 (ANOVA)、 极 大 似 然 估 计 (ML)、 
约束 极 大 似 然 估 计 (REML)、 最 小 范 数 二 次 无 偏 估 计 (MINQUE) 以 及 谱 分 解 估计 
(spectral decomposition estimate), 这 里 就 不 详细 述说 了 , 而 对 这 些 方法 的 改进 依然 
在 研究 中 . 

(3) Bayes 方法 ，EBLUP 方法 往往 要 求 模型 中 的 随机 效应 和 误差 分 布 满 足 正 
DERF, 当 这 一 条 件 得 不 到 满足 的 时 候 , Bayes 方法 显示 了 一 定 的 优势 . UA 
Bayes(EB) 估计 为 例 , 它 是 将 经 典 的 频率 方法 和 Bayes 方法 相 结 合 的 一 种 估计 方法 ， 
这 里 只 简单 介绍 其 基本 步骤 . 

(i) 求 目标 变量 的 后 验 密 度 : 利用 Bayes 方法 由 模型 假定 f(yln, 入 ) UR u 的 
先 验 分 布 密度 ful) 导出 目标 变量 / 的 后 验 密度 (uly, dr), 其 中 , y 为 观测 数据 
向 量 , \ 为 模型 参数 ; 

(ii) 估计 模型 参数 : 在 模型 参数 和 未 知 的 情况 下 , 通过 观测 数据 向 量 y 的 分 布 
密度 FlylA) 对 它 进行 估计 , 所 得 估计 记 为 å; 

(iii) 求 EB 估计 值 : 用 入 代替 Fo, 入) 中 的 入 再 以 f(uly, A) 作为 Bayes HE 
断 的 基础 . 对 于 u, 用 f(uly, A) 的 均值 作为 其 EB 估计 值 . 
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当然 除了 一 般 经 验 Bayes 方法 , 还 有 经 验 Bayes 的 推广 形式 , MAHA Bayes 
以 及 其 他 Bayes 方法 , 如 约束 Bayes 方法 和 多 层 Bayes 方法 等 , 这 里 就 不 详细 介绍 
T. 


12.5 ”数据 收集 模式 


如 引言 部 分 所 述 , 计算 机 的 使 用 已 经 并 将 继续 对 抽样 调查 产生 巨大 的 影响 . 现 
在 , 计算 机 已 经 以 不 同方 式 广泛 地 应 用 于 数据 收集 中 , 它 不 仅 影响 传统 的 数据 收集 
模式 (modes of data collection), 而 且 产生 出 新 的 数据 模式 . 

一 般 来 说 , 传统 的 数据 收集 方法 主要 有 三 种 : GD 邮寄 调查 : 调查 者 把 问卷 邮寄 
(或 传真 ) 给 被 调查 者 , 被 调查 者 在 没有 调查 员 协 助 的 情况 下 回答 完 问 题 后 寄 回 答 
卷 ; O 面 访 调查 : 调查 者 面对面 地 与 被 调查 者 沟通 , 提出 问题 , 并 得 到 回答 ; O 电 
话 调查 : 调查 者 通过 电话 联系 被 调查 者 , 向 他 们 提出 问题 , 记录 下 他 们 的 回答 . 

计算 机 技术 对 上 述 三 种 传统 的 数据 收集 模式 都 有 较 大 的 影响 , 各 种 各 样 的 计算 
机 辅助 方法 已 被 应 用 于 邮寄 调查 、 面 访 和 电话 调查 中 . 越 来 越 多 的 调查 机 构 开始 选 
择 计算 机 辅助 自我 调查 (CASI), 这 种 方法 通过 给 被 调查 者 发 送 电 子 邮件 而 由 被 调 
查 者 使 用 计算 机 完成 问卷 , 其 优点 是 既 快速 方便 又 节约 成 本 . 从 20 世纪 80 年 代 
开始 出 现 了 计算 机 辅助 面 访 调查 (CAPI). 这 些 调查 方式 改变 了 传统 的 书面 问卷 形 
式 , 以 前 被 调查 者 阅读 并 回答 书面 的 问卷 , 现在 他 们 不 得 不 从 电脑 屏幕 上 看 问卷 并 
回答 问题 . 计算 机 辅助 电话 调查 (CATI) 在 1971 年 由 Chilton 研究 机 构 提 出 , IPE 
渐 代 替 了 电话 调查 中 的 纸 和 笔 模 式 ， 相对 于 传统 的 电话 调查 方式 CATI 在 调查 成 
本 、 时 效 性 以 及 数据 质量 等 方面 都 有 所 提高 (Bergman, et al., 1994). Tourangeau 
(2004) 对 计算 机 对 数据 收集 模式 的 影响 作 了 一 个 比较 详细 的 综述 . 

除了 计算 机 渗入 传统 的 数据 收集 方式 之 外 , 计算 机 的 发 展 和 应 用 也 产生 了 一 
些 新 的 数据 收集 方式 (Tourangeau, 2004), 如 音频 电脑 辅助 自我 调查 (audio-CAST). 
Audio-CASI 这 种 调查 方式 是 在 电脑 屏幕 上 显示 问卷 的 问题 和 回答 的 选项 , 同时 通 
过 麦克 风 播 放 给 被 调查 者 听 , 然后 被 调查 者 通过 键盘 敲 出 答案 . 这 样 , 调查 者 只 负 
责 管理 电脑 并 解答 被 调查 者 的 疑问 , 他 们 完全 不 知道 回答 者 所 选择 的 答案 . 利用 这 
种 新 的 数据 收集 方式 既 减 少 了 由 于 调查 者 不 同 而 带 来 的 误差 , 也 保护 了 被 调查 者 的 
隐私 , 所 以 能 有 效 地 避免 面 访 调查 的 缺点 . 在 电话 调查 中 , 也 有 类 似 audio-CASI 的 
新 的 调查 方式 , 称 为 互动 式 声 音 回 答 (IVR). 与 audio-CASI 类 似 , IVR 是 在 电脑 控 
制 下 , 电话 语音 播放 问题 , 而 被 调查 者 通过 按键 回答 问题 或 用 声音 给 出 回答 . 这 种 
方式 在 商业 调查 中 越 来 越 多 地 被 用 到 . 当然 信息 技术 的 发 展 对 电话 调查 也 有 不 利 
的 一 面 , 如 手机 的 广泛 使 用 就 给 调查 带 来 了 一 个 问题 : 因为 人 们 接 电话 是 要 付费 的 ， 
这 样 就 不 愿意 接受 调查 . 类 似 答 录 机 也 对 回答 率 产生 了 负面 的 影响 . 
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另 一 类 由 计算 机 技术 发 展 出 来 的 新 的 数据 收集 方式 是 基于 互联 网 的 网 络 调查 . 
网 络 调查 有 其 独特 的 优点 : 它 减少 了 对 调查 者 的 需求 , 与 电话 调查 和 面 访 调查 相 比 ， 
极 大 地 减少 了 成 本 . 另外, 网 络 调查 的 问卷 内 容 可 以 有 图 片 、 对 话 ,甚至 视频 剪辑 . 
正 是 由 于 网 络 调查 的 低 成 本 和 高 能 力 , 网 络 调查 以 爆炸 式 在 增长 , 已 经 被 越 来 越 多 
地 应 用 于 商业 和 人 口 调查 中 , 特别 是 商业 机 构 对 于 网 络 调查 尤其 偏爱 . 

不 过 网 络 调查 存在 严重 的 覆盖 不 全 和 回答 率 不 高 的 问题 (Couper, 2001): © 网 
络 调查 的 取样 问题 是 比较 严重 的 . 首先 , 很 多 人 是 不 接触 网 络 的 , 而 接触 网 络 的 人 
群 和 不 接触 网 络 的 人 群 之 间 是 有 差异 的 . 而 更 为 严重 的 是 , 在 网 民 中 取样 是 极其 困 
难 的 , 因为 没有 关于 网 民 的 抽样 框 . 在 传统 的 数据 收集 方式 中 , 因为 有 住户 地 址 和 
电话 号 码 , 所 以 很 容易 编制 抽样 框 并 选择 样本 , 而 在 网 络 调查 中 , 进行 抽样 则 很 困 
WE. O 网 络 调查 的 回答 率 相 对 于 传统 的 调查 一 般 更 低 , 特别 是 对 于 商业 调查 而 言 ， 
需要 说 服 被 调查 者 用 基于 电脑 的 方式 而 不 是 用 笔 和 纸 的 方式 来 接受 调查 . 另外 , 网 
络 回答 者 同样 会 在 意 隐 私 , Moon(1998) 发 现 , 网 络 回答 者 更 倾向 于 给 出 社会 比较 认 
可 的 回答 而 不 是 给 出 真实 的 回答 . 正 是 网 络 调查 的 明显 优势 和 其 存在 的 缺点 , 使 得 
这 种 调查 成 了 活跃 的 研究 领域 , 吸引 了 许多 抽样 调查 工作 者 的 涉足 . 

以 上 简要 介绍 了 一 些 主 要 的 调查 数据 收集 方式 .同样 的 问题 在 不 同 的 数据 收 
集 模式 下 可 能 会 得 到 不 同 的 答案 , 因此 , 对 不 同 的 调查 数据 收集 方式 进行 仔细 比较 、 
了 解 各 自 的 特点 和 适用 场合 是 必要 的 . 例如 , Holbrook 等 (2003) AA, 电话 调查 鼓 
励 回 答 者 用 满意 策略 以 尽快 完成 该 调查 , 所 以 电话 调查 比 面 访 调查 得 到 的 数据 质量 
往往 更 差 些 . 一 般 而 言 , 被 调查 者 给 出 的 回答 主要 取决 于 三 个 因素 : 所 用 调查 方法 
对 隐私 的 保护 程度 、 给 被 调查 者 带 来 的 回答 负担 以 及 该 问卷 的 合法 性 (Tourangean 
and Smith, 1996). 这 是 采用 所 有 的 数据 收集 方式 时 都 需要 注意 的 问题 . 
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一 般 而 言 , 每 项 特定 的 调查 都 是 针对 需要 调查 研究 的 特定 的 目标 变量 而 设计 
的 , 目标 量 不 同 , 所 用 的 调查 方法 和 工具 也 不 尽 相同 . 但 实际 中 , 可 能 需要 用 所 收集 
到 的 围绕 原 目 标 变量 的 调查 数据 对 新 的 目标 变量 进行 估计 , 这 样 就 出 现 了 二 次 分 析 
(secondary analysis) 的 问题 . 因为 原来 的 调查 方法 和 工具 并 不 是 针对 这 个 新 的 目标 
变量 而 设计 的 , 或 者 新 的 目标 变量 已 经 超出 了 当时 调查 研究 的 初衷 , 因此 , 对 新 的 
目标 变量 的 估计 和 研究 就 不 同 于 原 变量 , 这 称 为 二 次 分 析 . Glass (1976) 正式 定义 
二 次 分 析 如 下 : 为 了 解决 原先 的 研究 问题 , 用 现在 更 好 的 统计 技术 对 原先 的 数据 进 
行 再 次 分 析 , 或 者 是 用 旧 数 据 回答 新 的 问题 而 进行 的 再 次 分 析 . 

对 调查 数据 的 二 次 分 析 的 需求 正在 持续 增长 , 这 种 需求 不 仅 来 源 于 公共 政策 的 
调查 研究 , 也 来 源 于 社会 科学 的 调查 研究 , 甚至 讲究 调查 数据 时 效 性 的 商业 调查 研 
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究 也 开始 重视 二 次 分 析 . 例如 , Townsend (1962) 深入 研究 了 二 战 后 英国 老年 人 机 构 
的 性 质 和 处 境 . 这 一 研究 引起 了 极 大 的 关注 , 不 仅 因为 老年 人 机 构 是 被 英国 公共 政 
策 所 忽视 的 方面 , 而 且 因 为 该 研究 所 用 的 方法 和 它 对 公共 政策 的 影响 . 这 项 研究 的 
原始 资料 此 后 一 直 被 使 用 , 像 Charlesworth 和 Fink (2001) 对 该 研究 资料 进行 了 进 
一 步 研究 , 利用 二 次 分 析 来 发 掘 新 的 信息 . 

Corti 和 Thompson(2004) 对 二 次 分 析 进 行 了 深入 研究 , 总 结 了 其 优势 和 缺点 . 
二 次 分 析 的 优势 包括 以 下 几 方面 : © 利用 二 次 分 析 , 研究 最 近 或 更 早 的 数据 材料 ， 
可 以 获得 新 的 信息 , 这 样 可 以 尽 可 能 地 充分 利用 抽样 调查 所 得 到 的 数据 ; @ 收集 新 
的 数据 有 时 是 非常 昂贵 的 , 这 样 利用 二 次 分 析 可 以 节约 很 多 成 本 , 并 且 避 免 不 必 要 
的 重复 ; © 针对 特别 珍贵 的 历史 数据 , 二 次 分 析 就 更 为 重要 , 因为 这 些 历 史 数 据 是 
无 法 再 次 调查 到 的 ; @ 针对 原 有 数据 的 二 次 分 析 , 所 采用 的 研究 方式 很 可 能 与 原来 
的 不 一 样 , 这 样 对 抽样 调查 以 及 统计 分 析 都 会 提出 新 的 研究 课题 . 因此 , 二 次 分 析 
不 仅仅 只 是 被 动 的 研究 调查 数据 , 它 对 抽样 调查 和 统计 分 析 都 会 产生 影响 ; © 任何 
现在 得 到 的 数据 以 后 都 会 成 为 历史 数据 , 而 且 很 可 能 以 后 它们 还 有 利用 价值 , 所 以 
研究 二 次 分 析 会 给 未 来 再 次 分 析 现 有 数据 创造 条 件 . 

但 是 , 二 次 分 析 本 身 在 使 用 时 也 会 遇 到 一 些 问题 , 这 些 问题 主要 有 以 下 几 方 面 : 
D 在 进行 调查 研究 、 录 入 分 析 原 始 调查 数据 时 , 研究 者 很 可 能 带 入 他 们 自己 的 个 人 
想法 在 里 面 , 从 而 改变 原始 数据 的 原始 面貌 , 这 样 在 进行 二 次 分 析 时 将 给 后 续 的 研 
究 者 带 来 麻烦 , 特别 是 对 于 定性 数据 而 言 ; @ 知识 产权 对 二 次 分 析 的 限制 . 一 些 研 
究 者 已 经 在 呼吁 应 当 保 护 他 们 对 自己 数据 的 权利 , 甚至 有 些 研究 者 认为 其 数据 是 他 
们 的 私人 权利 而 不 愿意 公开 . 因为 研究 者 越 来 越 重视 对 自己 数据 的 产权 , 因此 , 使 
用 数据 会 受到 越 来 越 多 的 限制 , 这 对 二 次 分 析 的 影响 无 疑 是 相当 大 的 ; @) 另外 , 对 
二 次 分 析 的 误解 也 在 一 定 程度 上 影响 到 了 二 次 分 析 的 发 展 . 因为 二 次 分 析 是 建立 在 
历史 数据 基础 之 上 的 , 这 样 就 给 二 次 分 析 的 研究 者 带 来 了 选择 性 的 机 会 , 所 以 很 多 
研究 者 对 二 次 分 析 的 科学 性 提出 质疑 . 应 该 指出 的 是 , 二 次 分 析 本 质 上 是 对 调查 数 
据 所 包含 信息 的 进一步 挖掘 , 因此 , 对 二 次 分 析 的 这 种 质疑 其 实 应 该 是 对 研究 者 提 
出 的 要 求 , 而 并 非 针对 二 次 分 析 本 身 . 

以 上 的 问题 也 提醒 当前 的 调查 研究 工作 者 , 要 尽 可 能 地 保留 数据 的 原始 性 ,以 
便 将 来 的 研究 者 进行 二 次 研究 ; 对 于 二 次 分 析 的 研究 者 来 说 , 应 该 尊重 事实 , 而 非 
故意 选择 有 益 于 自己 观点 的 历史 数据 和 分 析 方 法 , 以 尽 可 能 地 避免 不 科学 性 . 另外 ， 
也 要 处 理 好 知识 产权 的 问题 . 

除了 以 上 限制 二 次 分 析 发 展 的 外 在 因素 外 , 二 次 分 析 本 身 也 有 其 自身 的 弱点 : 
由 于 二 次 分 析 是 建立 在 旧 的 调查 数据 基础 之 上 的 , 但 旧 的 调查 数据 又 并 非 针 对 新 的 
问题 而 抽取 , 所 以 二 次 分 析 对 新 的 问题 能 提供 的 信息 应 该 是 有 限 的 , 而 且 用 二 次 分 
析 得 到 的 估计 的 有 效 性 可 能 会 相对 比较 低 , 甚至 是 有 偏 的 . 但 正 是 这 个 缺点 , 也 为 
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二 次 分 析 的 发 展 提供 了 空间 . 例如 , 在 很 多 情况 下 , 二 次 分 析 方 法 可 以 和 其 他 的 方 
法 一 起 被 综合 使 用 , 以 弥补 其 信息 量 不 足 的 缺点 , 如 对 老 的 数据 进行 补充 调查 等 . 

总 之 , 现代 社会 对 信息 的 需求 大 大 地 带动 了 二 次 分 析 的 发 展 , 关于 这 个 领域 的 
研究 也 给 抽样 调查 和 统计 研究 带 来 了 新 的 问题 , 特别 是 二 次 分 析 会 带动 新 的 分 析 工 
具 的 研究 , 所 以 未 来 这 个 方向 , 特别 是 针对 二 次 分 析 的 统计 分 析 研 究 , 可 能 会 有 长 
ERR. 


12.7 跨国 调查 


跨国 调查 (cross-national survey), 顾名思义 , 指 的 是 在 不 同 国家 作 同 一 个 调查 . 
跨国 调查 已 经 存在 很 多 年 了 ,如 开始 于 1972 年 的 世界 生育 力 调查 (world fertility 
survey WES), 除了 提供 许多 发 展 中 国家 的 生育 行为 的 可 比较 性 数据 外 , 它 在 帮助 
发 展 中 国家 执行 调查 的 能 力 建设 方面 也 做 出 了 很 有 价值 的 贡献 . 其 后 的 人 口 和 健康 
调查 (demographic and health surveys, DHS) 则 可 视 为 WES 的 延续 . 当然 类 似 的 路 
国 调 查 越 来 越 多 , 如 由 联合 国 组 织 赞助 的 多 指标 整 群 调 查 (multiple indicator cluster 
survey, MICS)、 世 界 银行 赞助 的 生活 水 平 度量 研究 (living standards measurement 
study, LSMS) 以 及 由 欧盟 组 织 的 欧洲 社会 调查 (european social survey) 等 (Kalton， 
2003). 

然而 , 一 项 跨国 调查 牵扯 的 内 容 非 常 多 , 所 以 完成 一 项 成 功 的 跨国 调查 会 遇 到 
许多 困难 (Smith, 1988): 

首先 , 组 织 的 难度 . 一 个 跨国 调查 的 组 织 管理 是 极其 复杂 的 , 牵扯 到 主要 研究 
者 之 间 的 合作 、 赞 助 的 来 源 、 数 据 的 收集 、 研 究 机 构 以 及 相关 的 政府 等 方面 , 而 且 
跨国 调查 的 花费 是 非常 高 的 , 调查 的 国家 越 多 , 得 到 的 信息 就 越 多 , 但 所 需 的 花费 
也 相应 地 越 多 . 此 外 , 跨国 调查 的 调查 难度 从 计划 、 执 行 到 分 析 都 比 普通 调查 大 很 
多 . 

其 次 , 在 跨国 调查 中 存在 计量 问题 . 因为 各 国 的 文化 差异 , 要 使 一 个 跨国 调查 
做 到 有 有效、 可靠 和 高 效 是 一 件 困难 的 事情 . 例如 , 在 原 教 则 主义 的 伊斯兰 国家 , 找 女 
性 接受 调查 的 难度 是 比较 大 的 . 

而 语言 带 来 的 困难 也 是 非常 大 的 . 因为 语言 本 身 的 差异 以 及 文化 上 的 差异 , 所 
以 在 很 多 情况 下 , 即使 有 翻译 的 帮助 , 还 是 很 难 给 出 准确 的 问题 或 得 到 真实 的 回答 . 
而 为 了 得 到 各 个 国家 之 间 可 比较 的 数据 , 研究 者 需要 想 办 法 让 其 影响 降 到 最 低 . 

针对 跨国 调查 面 对 的 这 些 棘手 问题 , 抽样 调查 工作 者 作 了 一 -系列 的 研究 , 如 针 
对 由 于 文化 和 语言 差异 可 能 导致 的 被 调查 者 理解 上 的 问题 , 已 提出 相应 的 办 法 : 
O 尽量 多 地 用 数值 来 表示 ; © 尽量 把 问题 和 回答 选项 简单 化 ; @) 试图 校准 可 能 存 
在 的 误差 . 当然 这 些 方法 在 有 些 调查 中 可 能 又 会 带 来 新 的 问题 (Smith, 1988). 
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另外 , 跨国 调查 不 得 不 考虑 一 般 调 查 的 一 些 问题 , 如 履 盖 率 、 抽 样 、 调 查 者 的 
培训 和 素质 、 回 答 率 以 及 数据 输入 等 . 因为 跨国 调查 的 复杂 性 , 这 些 一 般 调 查 会 遇 
到 的 问题 在 跨国 调查 中 很 可 能 更 加 麻烦 . 

进行 跨国 调查 的 一 个 很 重要 的 目的 是 在 各 个 国家 之 间 进 行 分 析 比 较 , 所 以 如 何 
做 到 跨国 调查 的 可 复制 性 和 可 比较 性 将 是 一 个 重要 的 研究 课题 . 同时 , 提出 一 些 标 
准 化 的 概念 并 给 出 度量 也 是 一 个 重要 的 问题 . 类 似 这 样 的 问题 在 跨国 研究 中 会 越 来 
越 多 地 被 提出 , 这 些 问题 都 应 该 引起 调查 研究 者 的 注意 . 

不 光 跨 国 调查 本 身 有 许多 问题 在 不 断 提 出 并 需 得 到 解决 , 同时 因为 跨国 调查 本 
身 的 复杂 性 , 以 及 跨国 调查 所 得 到 的 数据 的 复杂 性 , 它 又 将 带动 抽样 调查 其 他 方向 
的 发 展 , 如 由 于 跨国 调查 总 体 的 相对 更 复杂 性 , 所 以 可 能 会 提出 新 的 抽样 方法 或 对 
传统 的 抽样 方法 进行 相应 的 改进 , 而 分 析 复杂 的 跨国 调查 数据 就 有 可 能 会 给 统计 分 
析 带 来 新 的 问题 . 


12.8 其 他 重要 方面 


12.8.1 多 指标 或 多 主题 抽样 与 估计 


在 大 多 数 实际 的 抽样 调查 中 , 抽样 设计 一 般 是 围绕 一 个 主要 指标 进行 的 , 但 在 
实际 问题 中 , 经 常 需要 同时 估计 几 个 甚至 多 至 上 百 个 目标 量 , 这 时 逐个 进行 估计 效 
果 往 往 欠 佳 , 这 是 因为 抽样 的 设计 并 没有 顾及 其 他 指标 , 即 所 抽取 的 样本 对 其 他 指 
标 可 能 并 没有 很 好 的 代表 性 ， 如何 对 这 样 的 样本 兼顾 对 其 他 指标 估计 的 准确 性 是 
一 个 没有 解决 好 的 困难 的 问题 , 而 对 于 小 域 的 多 指标 估计 问题 则 更 加 困难 . 关于 多 
指标 的 抽样 与 估计 问题 , Bailey 和 Kott(1997) 提出 了 MPPS 抽样 方法 , 即 多 变量 
PPS 抽样 . 这 种 抽样 方法 对 采用 以 名 录 为 抽样 框 的 多 指标 调查 具有 较 好 的 效果 , 在 
我 国 农业 调查 中 也 已 得 到 应 用 . 但 是 , 这 种 方法 也 还 有 许多 需要 进一步 研究 和 改进 
的 地 方 . 邵 宗明 等 (2001) 对 多 指标 抽样 调查 进行 了 有 益 的 探索 , 他 们 将 调查 指标 分 
为 高 成 本 指标 和 低 成 本 指标 , 基于 单元 抽样 提出 了 成 本 限制 下 复合 设计 的 概念 , 将 
低 成 本 样本 信息 作为 辅助 资料 构造 了 高 成 本 指标 的 比 估计 ， 并 给 出 了 最 优 复合 设 
计 . 

另 一 方面 , 即使 针对 多 个 指标 的 样本 已 得 到 , 也 经 常会 出 现 某 些 指标 数据 出 现 
缺失 的 情况 . 如 何 推算 出 这 些 缺 失 值 以 提高 估计 的 精度 是 需要 仔细 研究 的 . 此 外 ， 
多 个 指标 值 之 间 的 相关 关系 也 是 值得 关注 的 . 


12.8.2 ”计量 误差 
计量 误差 是 非 抽样 误差 中 不 可 避免 , 同时 也 很 难处 理 的 一 种 误差 . 它 不 仅 存在 
于 抽样 调查 , 也 存在 于 任何 一 项 调查 , 如 全 面 调查 中 . 产生 的 原因 包括 调查 方案 的 
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设计 不 够 科学 或 不 够 完善 ; 调查 员 的 业务 能 力 不 强 及 责任 心 不 够 等 ; 被 调查 者 的 理 
解 不 当 、 记 忆 不 清 以 及 故意 的 不 真实 回答 等 , 这 是 最 严重 的 一 种 计量 误差 . 以 下 计 
量 误差 专 指 这 种 由 被 调查 者 引起 的 误差 . 

对 计量 误差 的 研究 首先 需要 对 计量 误差 进行 量化 (GEE, 2007). 数值 型 的 计 
量 误 差 对 调查 估计 影响 的 最 简单 模型 是 考虑 计量 中 的 固定 偏差 但 没有 随机 变异 的 
模型 , 如 Zarkovich (1966) 讨论 的 模型 . 对 于 有 偏 计 量 的 数值 化 研究 可 通过 收集 样 
本 单元 其 他 准确 或 无 偏 的 计量 来 进行 , 这 通常 在 子 样本 的 基础 上 实施 操作 . 对 于 分 
类 数据 的 计量 误差 , 误差 是 由 于 错误 分 类 引起 的 , 特别 是 对 敏感 性 问题 的 回答 . 目 
前 发 展 了 不 少 基 于 随机 化 回答 的 技术 来 减少 关于 敏感 性 问题 的 回答 误差 . 这 种 方 
法 也 可 以 处 理 数量 化 的 敏感 性 问题 . 随机 化 回答 技术 的 一 个 重要 问题 是 如 何在 尽量 
消除 被 调查 者 顾虑 的 同时 , 提高 抽样 估计 的 效率 . 

除了 用 随机 化 回答 技术 来 处 理 敏感 性 问题 以 减少 计量 误差 外 , 在 抽样 理论 中 关 
于 计量 误差 的 研究 目前 还 不 是 很 完善 , 多 是 针对 个 案 或 基于 一 些 较 简 单 的 模型 进行 
讨论 , 真正 能 用 于 一 般 情形 的 普遍 方法 还 很 少 . 


12.8.3 ”复杂 的 超 总 体 模型 


对 于 抽样 调查 目标 量 的 推断 问题 , 本 质 上 有 两 种 处 理 方式 : 一 种 是 传统 的 基于 
纯粹 抽样 设计 的 观点 , 另 一 种 是 基于 超 总 体 模 型 的 观点 .在 超 总 体 模型 的 观点 下 ， 
所 研究 的 有 限 总 体 被 看 成 是 来 自 某 一 个 超 总 体 的 样本 . 这 方面 已 有 非常 多 的 研究 
(ABE PANGS HE, 2007), 然而 目前 绝 大 多 数 文献 考虑 的 是 较 简 单 的 线性 模型 . 由 于 
实际 数据 的 复杂 性 , 在 更 一 般 的 超 总 体 模型 , 如 广义 线性 、 半 参数 、 非 参数 等 模型 
下 研究 有 限 总 体 的 估计 问题 值得 进一步 研究 . 另 一 方面 , 实际 的 观测 值 , 包括 感 兴 
趣 的 目标 量 和 辅助 变量 , 可 能 是 带 有 计量 误差 的 , 因此 , 考虑 带 计 量 误差 的 超 总 体 
模型 也 是 具有 实际 意义 的 . 


12.8.4 ”关于 抽样 误差 的 进一步 研究 


尽管 抽样 调查 是 一 个 发 展 相 对 比较 成 熟 的 学 科 , 但 在 经 典 的 抽样 理论 中 , 仍 有 
一 些 问 题 至 今 没 有 明确 的 答案 . 例如 , 系统 抽样 设计 由 于 不 可 测 , 因此 , 没有 无 偏 的 
方差 估计 . 为 此 , 抽样 调查 研究 者 提出 了 许多 方法 , 如 Wolter (1985) 对 不 等 概率 系 
统 抽 样 就 总 结 了 8 个 方差 估计 量 . 在 这 些 估 计量 中 , 到 底 哪 个 更 好 并 无 定论 , 进 一 
步 的 深入 研究 是 必要 的 , 或 许 需要 发 展 新 的 思想 和 方法 . 例如 , 在 方差 估计 量 的 比 
较 方面 , Sundberg (1994), BEERA EHE (1998) 结合 了 参数 估计 理论 中 估计 损失 
函数 的 思想 , 提出 了 一 种 新 的 方法 . 另 一 方面 , 对 现 有 的 某 些 抽 样 技术 进行 适当 改 
进 也 是 必要 的 . 例如 , 在 实际 的 抽样 调查 中 , 所 使 用 的 抽样 方案 常常 并 不 是 某 个 单 
一 的 抽样 方法 , 而 是 多 种 基本 抽样 方法 的 有 机 结合 , 而 实际 抽样 时 与 最 初 的 设计 又 
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可 能 有 差距 , 因此 , 最 终 所 得 样本 一 般 是 复杂 的 . 处 理 这 种 复杂 样本 的 方差 估计 常 
常 是 困难 的 , 目前 的 方法 主要 有 随机 组 方法 、 平 衡 半 样本 方法 、 刀 切 法 (自助 法 ) 以 
及 泰勒 级 数 法 . 这 些 方法 的 适用 范围 都 非常 广泛 , 但 在 许多 方面 , 如 估计 效率 、 计 
算 复 杂 度 、 缺 失 数据 的 处 理 等 , 仍 需 作出 改进 . 


12.9 结 R 语 


本 章 对 抽样 调查 领域 将 来 的 研究 问题 和 发 展 及 其 研究 基础 作 了 一 个 简要 的 介 
绍 , 希望 有 助 于 抽样 调查 工作 者 特别 是 年 轻 学 者 的 研究 . 需要 说 明 的 是 , 由 于 知识 
水 平 所 限 以 及 文献 查阅 不 全 , 有 些 重要 方面 可 能 没有 顾及 , 因此 , 不 必 完 全 拘泥 于 
这 里 介绍 的 范围 . 

总 之 , 我 们 认为 , 随 着 社会 经 济 和 科学 技术 的 发 展 , 人 们 对 信息 的 需求 越 来 越 
多 , 抽样 调查 作为 一 种 快速 、 经 济 和 有 效 地 获取 信息 的 手段 必 将 继续 显示 其 重要 作 
用 . 抽样 调查 依然 是 一 个 具有 生命 力 、 正 在 莲 勃 发 展 的 学 科 . 
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第 13 章 ”试验 设计 和 建 模 
计算 机 试验 及 模型 未 知 的 试验 


科学 试验 是 人 类 赖 以 生存 和 发 展 的 重要 手段 , 是 人 类 认识 自然 了 解 自然 的 重 
要 工具 , 许多 重要 的 科学 规律 都 是 通过 科学 试验 发 现 和 证 实 的 .在 工农 业 生产 中 ， 
人 们 希望 通过 试验 达到 优质 、 高 产 和 低 消耗 . 当 试 验 比 较 简 单 时 ,人 们 赁 经 验 就 可 
以 进行 . 随 着 科学 和 技术 的 发 展 , 试验 涉及 的 因素 越 来 越 多 , 它们 之 间 的 关系 非常 
复杂 , 特别 是 在 高 科技 的 发 展 中 , 面临 多 因素 、 非 线性 等 复杂 性 , 光 赁 经 验 来 安排 试 
验 已 不 能 达到 预期 要 求 , 于 是 产生 了 “试验 设计 ”这 个 分 支 . 如 何 安排 试验 是 一 门 
大 学 问 . 试验 安排 得 好 , 会 事半功倍 . 设计 一 个 试验 涉及 目的 、 构思 、 试验 方案 、 技 
术 保 证 、 分 析 数 据 以 及 组 织 管理 等 , 限于 篇 幅 , 本 章 仅 涉及 如 何 将 统计 学 的 理论 和 
方法 运用 到 试验 的 设计 和 建 模 中 . : 

在 试验 中 总 存在 一 些 不 可 控制 的 因素 , 如 气温 、 湿度、 原材料 不 够 均匀 、 操 作 
人 员 的 差异 等 , 它们 的 综合 作用 称 为 随机 误差 . 由 于 随机 误差 的 存在 , 在 “相同 ”条 
件 下 做 的 试验 , 其 结果 不 尽 相 同 , 它们 的 波动 大 小 反映 了 随机 误差 的 大 小 . 随机 误 
差 经 常会 干扰 试验 者 的 视线 , 甚至 误导 试验 的 结论 . 为 此 , 要 求 试验 设计 能 大 大 降 
低 随 机 误差 的 干扰 . 而 数理 统计 提供 的 各 种 数据 分 析 方 法 , 可 帮助 试验 者 从 错 综 复 
杂 的 数据 中 , 从 随机 误差 的 干扰 中 去 伪 存 真 , 找到 客观 存在 的 规律 , 发 现 “ 庐 山 真 面 
E”, 所 以 “一 个 精心 设计 的 试验 是 认识 世界 的 有 效 方法 ”. 

假定 在 一 个 试验 中 选择 了 s 个 可 控 的 因素 z1,… ,zs, 通过 试验 希望 能 研究 这 s 
个 因素 对 关心 的 指标 y 的 影响 和 它们 之 间 的 关系 . y 可 以 是 物理 指标 (强度 、 弹 性 )、 
化 学 反应 结果 (转化 率 ) 等 , y 在 试验 设计 领域 中 称 为 响应 . 如 果 y 和 z1,… ,zs 之 
间 有 一 个 函数 关系 (在 试验 设计 中 称 为 模型 ) 


y = g(x) = 9(21,:°:,2,), B= (T1, , 2s) ET; (13.0.1) 

其 中 , 了 为 试验 区 域 , z AT 中 的 点 , 又 称 为 试验 点 . 当 试 验 有 试验 误差 干扰 时 , 模 
型 (13.0.1) 成 为 

Y = g(T1, ,Ts) +E, (13.0.2) 


本 章 作者 : 方 开 泰 , 中 国 科学 院 随机 复杂 结构 与 数据 科学 重点 实验 室 研究 员 , BNU-HKBU 
联合 国际 学 院 教授 ; 刘 民 千 , 南开 大 学 教授 . 
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其 中 , 随机 误差 s 一 般 假定 有 零 均 值 (Ele) = 0) 及 等 方差 (Var(e) = o?). o? 决定 
了 试验 的 精度 , 要 通过 试验 来 估计 . 在 实际 课题 中 , 试验 者 通常 并 不 知道 或 不 完全 
知道 模型 (13.0.2), 要 通过 试验 来 估计 这 个 模型 的 未 知 参数 , 或 其 至 函数 g. 

在 古典 的 试验 设计 中 , 一 般 假定 模型 9 的 形式 已 知 , 但 其 中 含有 未 知 参 数 , 例 
如 , 在 单 因 素 的 试验 中 , SAR z 取 a, ,ar 来 做 试验 , 并 分 别 重复 n,n 
次 , 在 文献 中 称 a1,… ,ar 为 z 的 水 平 , 则 这 个 试验 的 模型 可 表 为 


Yj HM + Eij = H+ Qi + Eijs J=1,---,m,t=1,---,I, (13.0.3) 


其 中 , ji 为 当 z = ai Ny 的 真 值 , yi; 为 当 z = a; 时 第 7 次 试验 的 响应 , ci 为 该 次 
试验 的 随机 误差 . 一 般 地 , 假定 Elei) = 0, Var(ei;) = o?, o? 未 知 以 及 {ei;} 相互 
独立 . pi 又 可 进一步 分 解 为 mi = via, 其 中 ,为 y 在 了 上 的 总 平均 , ai RA y 
在 水 平 x = a; 上 的 主 效应 . 在 模型 (13.0.3) 中 , vw, al, … ,ar,a2 未 知 , 要 通过 试验 
来 估计 . 

模型 (13.0.2) 也 可 以 是 回归 模型 , 如 单 因 素 试验 (s = 1) 的 二 次 模型 


y = po + BiT + b22? +e, (13.0.4) 


其 中 , bo, b1, 82 及 o? = Var(e) KA. 在 探索 性 试验 中 , 试验 者 对 模型 (13.0.2) 无 先 
验 知 识 , 这 时 要 通过 试验 来 估计 模型 g, 这 是 现代 试验 设计 的 主攻 目标 之 一 . 

试验 设计 是 统计 学 的 重要 分 支 , 对 人 类 认识 世界 起 了 极 大 的 作用 . 古典 的 试验 
设计 方法 , 如 因子 设计 、 区 组 设计 、 拉 丁 方 设计 、 旋 转 设计 、 响 应 曲面 设计 等 已 建 
立 了 丰富 的 理论 . 随 着 新 技术 和 科学 的 飞速 发 展 , 人 类 面 对 的 问题 越 来 越 复杂 , 在 
试验 中 的 因素 个 数 s 可 能 会 很 大 , 响应 和 因素 之 间 的 关系 非 线性 , 需要 突破 古典 试 
验 设计 中 强烈 依赖 于 模型 的 限制 . 

许多 试验 的 前 期 研究 可 以 在 计算 机 上 进行 , 这 可 大 大 地 节省 试验 的 开支 , 又 可 
显著 加 快 研究 的 进程 . 在 过 去 的 30 EP, 计算 机 试验 从 无 到 有 , 提出 了 许多 行 之 有 
效 的 方法 , 建立 了 有 关 理 论 , 这 方面 的 研究 存在 着 广阔 的 空间 . 

试验 设计 在 医学 临床 试验 、 药 物 有 效 性 及 毒性 的 试验 , 在 生物 基因 的 研究 和 
cDNA Microarray 的 试验 等 方面 均 发 挥 了 极其 重要 的 作用 , 发 展 了 许多 新 方法 , E 
立 了 新 理论 , JA Handbook of Statistics, 13 卷 选择 的 30 章 可 以 见 到 内 容 之 丰富 . 限 
于 作者 知识 的 局 限 , 本 章 仅仅 涉及 因子 设计 、 回 归 设 计 、 均 匀 设 计 、 超 饱和 设计 以 
及 序 贯 试验 设计 , 并 提出 一 些 进 一 步 研究 的 课题 . 


13.1 古典 的 统计 试验 设计 
古典 的 试验 设计 方法 很 多 , 在 实际 中 应 用 最 广 的 有 因子 试验 设计 (包括 正 交 设 
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计 )、 最 优 设计 或 回归 设计 . 它们 均 假 定 模型 的 形式 已 知 , 通过 试验 来 估计 模型 中 的 
未 知 参数 , 并 要 求 在 一 定 的 意义 下 , 试验 设计 达到 最 优 . 
13.1.1 ”因子 试验 及 其 部 分 实施 


方差 分 析 和 多 重 比 较 已 成 功 地 用 于 单 因 素 试验 (模型 (13.0.3)) 的 数据 分 析 . 对 
于 多 因素 试验 , 许多 试验 者 将 其 化 为 多 个 单 因素 试验 , 即 变化 一 个 因素 的 值 , 固定 
HAAR. 当 因素 间 有 交互 作用 时 , 这 一 方法 往往 不 能 找到 最 佳 的 结果 . 早 在 20 tH 
纪 30 年 代 , 由 于 工农 业 试验 的 需要 , 诞生 了 因子 试验 和 区 组 试验 设计 . 在 因子 试验 
中 , 每 个 因素 取 一 些 有 代表 性 的 值 ( 称 为 水 平 ) 来 研究 . 若 有 s 个 因素 , 它们 各 取 
dg ,gs 个 水 平 , 共有 N = q x qz x … x gs 个 不 同 的 水 平 组 合 . 若 在 所 有 的 
水 平 组 合 下 做 一 次 或 多 次 试验 ( 称 为 全 面试 验 ), 试验 数 为 N MN 的 倍数 . 显然 ， 
当 s,g1,g2,… ,gs 增加 时 , N 旦 指数 增长 , 全 面试 验 将 失去 可 行 性 . 于 是 在 很 长 一 
段 时 间 内 , 统计 学 家 强调 二 水 平 试验 , Bg =a = … = gs = 2, 这 时 NN = 25, 它 
随 s 增长 的 速度 相对 较 缓 . 在 因子 试验 中 , 每 个 因素 的 作用 用 主 效应 来 度量 , 因素 
间 的 作用 用 交互 作用 来 度量 . 交互 作用 又 分 两 因素 间 的 交互 作用 、 三 因素 间 的 交互 
作用 等 . 因素 的 主 效应 和 交互 效应 的 大 小 要 通过 试验 来 估计 , 用 M 表示 要 估计 的 
参数 个 数 , n 表示 实际 试验 的 个 数 , 一 般 要 求 n > M. n RA, 需要 的 人 力 、 物 力 越 
多 , 试验 周期 也 越 长 . 为 此 , 在 因子 试验 的 模型 中 必须 保证 主要 的 ,忽视 次 要 的 , 这 
就 产生 了 如 下 原则 : 

(1) AAU. 在 一 个 因子 试验 中 , 起 关键 作用 的 主 效应 和 交互 效应 的 数目 不 
会 太 多 ; 

(2) 有 序 原 则 . 因子 的 主 效应 比 交 互 作用 重要 , 低 阶 交互 作用 比 高 阶 交互 作用 
重要 . 
根据 这 两 个 原则 , 在 因子 试验 中 , 大 部 分 模型 只 考虑 主 效应 或 主 效应 及 两 因素 之 间 
的 交互 效应 . 

多 水 平 的 因子 试验 , 其 未 知 参数 的 个 数 M 随 因 子 数 (s) 及 每 个 因素 的 水 平 数 
的 增加 呈 指 数 增长 , 当 所 有 因素 的 水 平 数 均 为 g 时 有 表 13.1. 这 是 为 什么 许多 试验 
只 考虑 低 水 平 (g = 2,3) 的 原因 . 


表 13.1 起 码 试验 数 


q=2 4 8 16 32 64 128 256 
9 27 81 243 729 2187 6561 


16 64 256 1024 4096 16384 65536 


q=3 


q=4 


减 小 试验 数 的 另 一 个 办 法 是 从 所 有 个 水 平 组 合 中 挑选 最 有 代表 性 的 组 合 ， 
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被 挑选 的 组 合 称 为 部 分 实施 , 或 部 分 因子 设计 . 如 何 挑选 , 不 同 的 设计 选用 不 同 的 
准则 , 最 常见 的 设计 有 如 下 两 种 : 

(1) 正 交 设计 . 它 采 用 水 平 组 合 均衡 的 原则 , 要 求 每 个 因素 的 诸 水 平 有 相同 的 
重复 数 , 以 及 要 求 任 个 因素 的 水 平 组 合 有 相同 的 重复 数 . k 称 为 设计 的 强度 , 常 
用 的 正 交 设计 为 大 =2 或 有 = 3. 

(2) 均匀 设计 . 均匀 设计 使 得 试验 点 在 试验 区 域内 分 布 最 均匀 . 有 关 均 匀 性 的 
度量 将 在 下 面 介绍 . 

早 在 20 世纪 , 由 于 农业 试验 的 需要 , Fisher, Yates, Bose 等 先驱 者 将 试验 设计 
发 展 成 为 统计 学 的 一 个 分 支 , 后 来 , 一 批 统计 学 家 将 因子 设计 的 理论 和 方法 日 趋 完 
善 . 有 关 因 子 试 验 近 期 的 代表 作 有 Dey 和 Mukerjee(1999), Wu 和 Hamada (2000), 
Mee 和 Wu (2006) 等 . 

因子 试验 设计 是 目前 用 得 最 广 的 一 类 设计 ， 其 理论 和 方法 有 十 分 丰富 的 内 容 . 
尽管 如 此 , 因子 设计 的 研究 仍然 十 分 活跃 , 新 的 概 和 结果 不 断 涌现 , 表现 为 以 下 几 
方面 : 

(1) 正规 与 非 正规 正 交 设计 . 许多 正 交 设计 是 通过 群 论 的 方法 来 构造 的 , 相应 
的 正 交 设计 具有 如 下 性 质 : 任 两 个 因素 的 交互 作用 仅 反 映 在 正 交 表 的 某 些 列 , 这 
样 的 正 交 表 称 为 正规 的 . 例如 , 教科 书 上 常见 的 Ls(27), Li6(2””) 等 均 为 正规 的 , 但 
有 更 多 的 正 交 表 并 不 是 正规 的 , 如 Ziz(21) 等 , 这 时 任 两 列 的 交互 作用 并 不 集中 在 
Ly2(2!!) 的 某 一 列 , 而 是 散布 到 正 交 表 的 许多 列 . 

对 正规 因子 设计 ， 字 长 型 向 量 是 衡量 设计 能 力 的 重要 工具 ， 所 谓 设 计 的 最 大 
分 辨 度 (maximum resolution, Box and Hunter, 1961) 和 最 小 低 阶 混杂 (minimum 
aberration, 简 记 MA, Fries and Hunter, 1980) 是 比较 不 同 设计 的 重要 准则 . 在 20 
世纪 , 绝 大 部 分 研究 集中 在 二 水 平 的 正规 正 交 设计 . 而 Deng 和 Tang (1999) 引入 
了 Minimum G-Aberration 准则 来 衡量 二 水 平 的 非 正 规 设计 , 这 一 准则 较 难 具体 应 
用 , 于 是 Tang 和 Deng (1999) 进行 了 改进 , 提出 了 Minimum G2-Aberration 准则 . 
21 世纪 初 ，Ma 和 Fang (2001) 和 Xu 和 Wu (2001) 几乎 同时 将 上 述 概 念 (FK 
型 ) 及 准则 (最 大 分 辨 度 和 最 小 低 阶 混杂 ) 推广 至 多 水 平 的 非 正规 因子 设计 , 分 别 
针对 对 称 和 非 对 称 情形 的 设计 提出 了 MGA (minimum generalized aberration) 和 
GMA (generalized minimum aberration) 准则 . 与 此 同时 , Fang 和 Mukerjee (2000) 
将 均匀 性 用 于 比较 不 同 的 因子 设计 ， 并 建立 了 均匀 性 与 字 长 型 向 量 之 间 的 解析 联 
系 . 均匀 性 是 一 个 几何 准则 , 对 正规 或 非 正 规 的 因子 设计 一 视 同仁 ,， 故 均匀 性 在 因 
子 设计 的 研究 中 有 巨大 的 潜力 ， 详 见 下 节 的 讨论 . 除 此 以 外 , 许多 度量 正 交 性 的 其 
他 准则 也 纷纷 出 笼 , 如 Xu (2003) 针对 非 正规 设计 提出 的 MMA (minimum moment 
aberration). Sun (1993) 提出 的 最 大 估计 容量 (maximum estimation capacity), Wu 
和 Chen (1992) 提出 的 纯净 效应 (clear effects) 准则 等 . 试验 设计 专著 Mukeriee 和 
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Wu (2006) 对 这 方面 的 结果 有 很 好 的 总 结 . 最 近 , Zhang 等 (2008) 提出 了 一 种 反应 
正规 设计 本 质 的 新 的 混杂 型 式 (文章 中 记 为 AENP)， 从 本 质 上 充分 而 完全 地 揭示 
了 正规 设计 因子 效应 间 的 混杂 信息 ， 并 基于 这 一 新 型 式 提出 了 一 种 新 的 选 最 优 设 
计 的 GMC (general minimum lower-order confounding) 准则 , 即 一 般 最 小 低 阶 混杂 
准则 . 针对 这 一 准则 已 出 现 了 一 系列 后 续 的 研究 . 

另外 ， 上 述 的 多 个 准则 还 被 推广 应 用 于 研究 其 他 各 类 相关 设计 ， 如 纯净 准则 
下 的 非 对 称 设计 、 最 优 分 区 组 设计 、 裂 区 设计 (split-plot design) 、 稳 健 参数 设计 
(robust parameter design) 等 . 这 方面 的 工作 可 参见 专著 (Mukerjee and Wu, 2006), 
最 近 的 文章 (Yang, et al., 2009; Zhao, et al, 2008; Zi, et al, 2007; Tang, 2007; Xu, 
2006; Chen, et al, 2006; Li, et al, 2006; Yang, et al., 2006; Ai, et al., 2006; Zi, et al, 
2006) 及 其 所 引文 献 . 

(2) 设计 的 分 类 . 对 给 定 的 试验 数 n, 因素 的 个 数 s 以 及 因素 的 水 平 数 q, 相应 
的 正 交 设 计 (如 果 存 在 ) 并 不 唯一 , 根据 试验 的 要 求 , 将 具备 相等 能 力 的 正 交 设计 归 
类 , 对 正 交 设计 的 应 用 , 十 分 有 益 . Chen 等 (1993) 将 许多 二 水 平和 三 水 平 的 因子 按 
字 长 型 向 量 的 表现 进行 了 归 类 . 近年 来 , 更 细致 分 类 的 文章 很 多 . 

(3) 多 水 平 试验 . 当 模 型 为 非 线 性 时 , 二 水 平和 三 水 平 的 试验 已 不 能 真实 地 表 
达 模 型 的 概貌 , 需要 做 水 平 更 多 的 试验 . 由 于 多 水 平 的 因子 试验 理论 非常 复杂 , 这 
是 一 个 有 挑战 性 的 研究 方向 . 


13.1.2 ”回归 设计 


若 在 一 个 试验 中 , 若 试验 的 结果 (响应 )y 与 s 个 因素 z1,-… ,zs 之 间 有 如 下 的 
回归 关系 : 


y = Bg (T1, s) + + Bngm(T1,.** 52s) +e, (13.1.1) 


其 中 ， J1,**' ,gm 为 已 知 函数 ， 回归 系数 fi, Lily > Bm 及 o? = Var(e) 未 知 ， 要 通过 试 
验 来 估计 , 希望 构造 一 个 试验 , 使 得 回归 系数 的 估计 有 最 好 的 精度 , 即 有 最 小 的 协 
方差 阵 . 一 个 矩阵 的 极 小 可 能 有 多 种 不 同 的 考虑 , 从 而 产生 不 同 的 最 优 设 计 . 令 


g(t) > gm(Z1) BN 
G= f : , B= : 3 (13.1.2) 
gi(Tn) … Gm(Ln) Bm 
其 中 , z1,… ,zn 为 试验 点 , 则 B 的 最 小 二 乘 估计 为 


B= (ercj cry 


其 中 , GT 为 G 的 转 置 , y = (v, , yn) 人, 即 响应 值 组 成 的 向 量 . 估计 B 是 无 偏 的 ， 
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它 的 协 方差 阵 为 
Cov(B) = czGTG ,, 

其 中 , o? = Var(e), 也 需要 通过 试验 来 估计 . 令 M = 二 GTG, 它 称 为 信息 矩阵 , 包 
含 了 试验 点 及 模型 的 信息 . 欲 使 Cov(B) 达到 最 小 等 价 于 使 M 达到 最 大 . 如 下 不 
同 的 回归 设计 来 源 于 对 和 矩阵 M 不 同 的 极 大 含义 : 

(1) D 最 优 设计 : 取 试 验 点 , 使 M 的 行列 式 达 极 大 ; 

(2) A 最 优 设 计 : 取 试 验 点 , 使 tr(M-1) ARK, 其 中 , tr(4) 为 A 的 对 角 元 素 
之 和 ; 

(3) 五 最 优 设 计 : 取 试 验 点 , 使 MI 的 最 大 特征 根 达 极 小 ; 

(4) G 最 优 设 计 : 取 试 验 点 , 使 响应 (y) 预报 值 (0) 的 最 大 方差 达 极 小 . 
显然 , 当 模 型 已 知 时 , 最 优 回 归 设 计 提 供 了 模型 中 未 知 参数 的 优良 估计 . 若 试验 者 选 
错 了 模型 , 相应 的 最 优 回 归 设 计 可 能 表现 很 差 , 故 回归 设计 强烈 地 依赖 模型 , 缺乏 
稳健 性 . 有 关 回 归 设 计 的 专著 可 参见 文献 (Atkinson and Donev, 1992; Pukelsheim, 
1993). 

最 优 设 计 有 高 效率 的 优点 , 当 模 型 已 知 时 , 它 是 首选 , 但 最 优 设 计 过 分 依赖 于 
模型 , 从 而 缺乏 稳健 性 . 如 何 提高 最 优 设 计 的 稳健 性 是 最 优 设 计 的 重要 研究 方向 . 


13.1.3 ”区 组 设计 


在 农业 、 生 物 等 试验 中 , 很 难 做 到 试验 条 件 完全 一 样 . 两 块 试验 田 要 使 土壤 、 
水 分 、 通风 等 条 件 近 似 并 不 困难 , 但 如 果 有 几 十 块 试验 田 , 要 它们 有 近似 的 条 件 就 
不 容易 了 . 在 生物 和 医药 试验 中 , 如 果 一 次 要 求 太 多 的 试验 老鼠 , 希望 它们 来 自 同 
一 双 父 母 是 不 容易 的 , 于 是 区 组 的 概念 成 为 古典 试验 设计 中 非常 有 用 的 工具 , 同一 
区 域 的 试验 有 十 分 近似 的 试验 环境 . 区 组 设计 可 以 避免 系统 误差 , 从 而 大 大 提高 了 
试验 结论 的 可 靠 性 . 当 每 个 区 组 的 试验 单元 数目 足够 多 时 , 有 完全 区 组 设计 , 但 区 
组 中 的 试验 单元 不 够 多 时 , 产生 不 完全 区 组 设计 . 后 者 必须 拥有 区 组 与 因素 间 的 种 
种 均衡 性 , 例如 , 平衡 不 完全 区 组 设计 (BIB) 就 是 让 试验 满足 要 求 的 均衡 性 ， 这 一 
类 的 设计 有 极其 丰富 的 内 容 , 形成 “组 合 设计 ”这 一 数学 中 的 分 支 . 有 兴趣 的 读者 
可 参见 文献 (Street, 1996; Caliriski and Kageyma, 1996; Gupta and Mukerjee, 1996) 
的 综合 评述 文章 . 


13.2 ”模型 未 知 的 试验 和 计算 机 试验 


13.2.1 ”模型 未 知 的 试验 设计 
上 述 两 类 试验 设计 均 假定 响应 (y) 与 因素 (z1,:… ,zs) 之 间 的 关系 (MP) 类 
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型 已 知 , 但 在 大 多 数 的 试验 中 , 试验 者 对 模型 (13.0.2) 并 不 十 分 清楚 , 要 通过 试验 
点 来 估计 g, 这 时 如 何 来 选择 试验 设计 昵 ?” 记 试验 点 为 z1,…… :zn, 相应 的 响应 为 
Yt Uns 9(T1,… ts) Wg 的 一 个 估计 , 它 是 数据 {y ,yn; zi ,Zn} 的 一 
个 函数 . 直观 上 , 希望 9 和 9 之 间 的 偏差 


|g(T1 Ts) — OT1,. sj) 


在 试验 范围 内 一 致 地 小 于 给 定 的 精度 6. 要 直接 达到 这 个 要 求 在 理论 上 是 困难 的 . 
均匀 设计 ( 方 开 泰 , 1980; Fang and Wang, 1994) 首先 采用 总 均值 模型 作为 突破 口 . 
考虑 模型 (13.0.2), 


yy=g(z)+E=g(z ,Ts)+e, TEY, 


其 中 , e 为 随机 误差 , 通常 假定 = ~ N(0,o?). 在 多 数 试 验 中 , 了 是 一 个 超 矩 形 , 即 
J = [a1,b1] x [a2,b2] x … x [as,bs]. 不 失 一 般 性 , 可 假定 7 为 一 个 单位 超 立 方 体 ， 
了 = [0,1]s. y 在 了 上 的 总 均值 为 


mean(y) = f g(x)dz. 
(0, 1}* 


记 试验 点 集 为 P= {21 ,zn}, 真 模型 9 在 刀 上 的 平均 JP) = 9 = + 了 g(zi) 是 

i=l 
mean(y) 的 一 个 无 偏 估计 . 总 均值 模型 是 寻求 一 个 设计 P*, 使 其 jy(P*) 与 mean(y) 
最 接近 . 由 数论 中 的 Koksma-Halwka 不 等 式 ， 


|mean(y) — y(P)| < V(9)D(P), 


其 中 , V(g) 为 函数 g 在 [0,1 上 一 定 意义 下 的 总 变 差 , D(P) 为 试验 点 集 P 的 偏 
差 , 详 见 文献 (Hua and Wang, 1981; Fang and Wang, 1994). V(g) 仅 依 赖 于 模型 ， 
而 D(P)( 一 种 均匀 性 测度 ) 的 值 取决 于 试验 设计 . 使 D(P) 达 极 小 的 设计 称 为 均 
匀 设 计 . 均匀 设计 不 仅 是 在 总 均值 模型 下 的 最 优 设计 , 它 有 更 多 的 优良 性 , 详 见 文 
献 (Wiens, 1991; Xie and Fang, 2000; Hickernell, 1999; Yue and Hickernell, 1999; 
Hickernell and Liu, 2002). 后 者 指出 “Although it is rare for a single design to be 
both maximally efficient and robust, it is shown here that uniform designs limit the 


effects of aliasing to yield reasonable efficiency and robustness together” . 
13.2.2 ”计算 机 试验 


计算 机 技术 的 飞速 发 展 改变 了 人 们 的 生活 , 也 改变 了 许多 领域 研究 的 方法 和 思 
路 , 在 试验 设计 领域 内 也 毫 不 例外 . 由 于 传统 的 试验 方法 是 在 实验 室 或 工农 业 生产 
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现场 进行 , 需要 经 费 、 有 关 设备 和 材料 、 有 经 验 的 工程 师 和 操作 人 员 . 有 的 试验 费 
时 很 长 . 如 果 有 些 实验 能 在 计算 机 上 进行 , 可 达到 多 快 好 省 的 目的 . 

在 统计 学 领域 内 , 计算 机 试验 可 以 分 为 两 类 : 一 类 为 计算 机 模拟 计算 , 如 用 计 
算 机 产生 正 态 分 布 的 样本 , 产生 需要 的 统计 量 , 然后 来 研究 该 统计 景 的 表现 ; 另 一 
类 是 计算 机 试验 , 试验 者 知道 原 模型 (13.0.1), 但 该 模型 过 于 复杂 , 没有 解析 表达 
式 且 计算 时 间 过 长 , 在 实际 中 难以 直接 使 用 , 为 此 , 希望 能 寻找 一 个 易 算 的 近似 模 
型 9(z1,… ,zs) = 9(z) 来 代替 真 模型 g(z). 在 文献 中 , G(x) 又 称 为 拟 模 型 (meta- 
model). 为 了 获得 一 个 高 质量 的 拟 模 型 , 需要 预先 做 一 批 试验 , 然后 用 试验 数据 来 
寻找 y 和 zi ,zs 之 间 的 拟 模 型 9. 在 实际 中 , 用 拟 模型 9 来 代替 真 模型 g, 其 过 
程 如 图 13.1 所 示 . 根据 上 述 思 路 , 要 解决 试验 设计 和 建 模 两 方面 的 要 求 . 


y 输出 


图 13.1 仿真 试验 


(1) 试验 设计 在 系统 的 输入 参数 空间 (或 称 为 试验 区 域 ) 选择 n 个 有 代表 性 
的 组 合 (试验 点 ), 使 得 试验 点 能 填 满 在 参数 空间 , 在 文献 上 称 为 space filling design; 

(2) 2B ”对 每 个 试验 点 zi, 计算 相应 的 输出 yi = gle: = 1,--- ,n), 并 用 数 
HER {yi, zili = 1,… ,n} 来 寻找 一 个 高 质量 的 拟 模型 5. 

请 注意 , 在 计算 机 试验 中 不 存在 随机 试验 误差 , 与 模型 未 知 试验 的 模型 (13.0.2) 
有 本 质 的 不 同 , 在 绝 大 多 数 文献 中 , 是 将 两 类 试验 分 开 研究 的 . 但 是 在 试验 设计 和 
建 模 的 要 求 上 , 两 类 试验 有 许多 共性 . 当 s 个 输入 参数 中 可 能 有 一 些 参数 对 y 影响 
不 大 , 在 建 模 时 这 些 参数 未 能 包含 在 拟 模型 之 内 , 这 时 , 这 些 次 要 参数 的 影响 可 视 
为 试验 误差 . 用 这 种 观点 , 两 类 试验 的 设计 和 建 模 有 更 多 的 共性 . 

计算 机 试验 和 建 模 已 有 30 多 年 历史 , 在 统计 、 工 程 和 许多 科研 领域 都 是 一 个 
热门 课题 , 有 关 综 述 的 文献 可 参见 (Sacks, et al., 1989a; Koehler and Owen, 1996; 
Simpson, et al., 2001). 有 关 的 专著 可 参见 (Santner, et al., 2003; 方 开 泰和 蕊 长 兴 ， 
2001; Fang, et al., 2005). 在 计算 机 试验 及 模型 未 知 的 试验 中 , 遇 到 了 一 系列 有 挑战 
性 的 课题 , 下 面 介绍 其 中 的 一 部 分 . 


13.2.3 ”均匀 设计 的 构造 


在 单位 超 立方 体 [0, 1]* 上 构造 一 个 有 n 次 试验 的 均匀 设计 , 是 使 其 有 最 好 的 
均匀 性 .传统 的 度量 均匀 性 的 测度 在 数论 方法 中 是 星 偏差 . 星 偏差 是 [0, 1]* 上 均 
匀 分 布 函数 F(z) 和 n 个 试验 点 的 经 验 分 布 函数 F(x) 之 差 的 一 种 Lp 范 数 , B 
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| F(x) —Fr(a)|\|p- H poo 时 , 这 个 范 数 为 ”sup | F(z) 一 F(x) | 称 为 星 偏差 . 


mzE[0,1]* 

由 于 星 偏差 计算 过 于 复杂 , 相应 的 Ls 星 偏差 虽然 好 算 , 但 不 具备 坐标 系 交 换 不 变 
性 . 为 此 , Hickernell (1998) 提出 了 多 个 有 良好 性 质 的 新 偏差 , 其 中 , WPM Lo 偏 
Æ., WE Ls 偏差 以 及 Hickernell 和 Liu(2002) 提出 的 离散 偏差 更 为 有 用 . 在 以 下 
文中 , 用 D(P,) 表示 设计 Pa 的 上 述 三 个 偏差 中 的 一 个 . 对 于 单 因素 试验 (s= 1), 
均匀 设计 可 以 求 出 , 在 中 心 化 La 偏差 下 , 均匀 设计 为 TT i ath 对 于 
多 因素 试验 , 求 均匀 设计 在 计算 复杂 性 上 是 一 个 NP Hard 问题 . 其 实 , 从 实用 的 角 
度 , 只 需要 求 出 均匀 性 好 的 设计 就 可 以 了 . 

将 备 选 的 空间 缩小 是 降低 计算 复杂 性 的 有 效 途 径 , 于 是 提出 了 U 型 设计 的 概 
念 . 一 个 有 了 E s 个 因素 , 每 个 因素 有 4 个 水 平 的 U 型 设计 是 一 个 nx s 矩阵 ， 
其 每 列 中 元 素 1, 2,… ,gq 出 现 的 频率 相同 , A U(n; 9°). 若 将 水 平 1,2,… ,4 BH 


Seg EL, 则 得 到 0,1 上 的 一 个 设计 , 矩阵 的 个 行 对 应 ”个 试验 点 , 这 
seein U(niq°). i q =n 时 ,每 个 因素 的 水 平 为 全 ae h 


它 是 单 因素 的 均匀 设计 . 在 集合 U(n; 9°) 上 求 均匀 设计 就 是 在 其 上 求 偏差 最 小 的 设 
W. 上 述 做 法 大 大 缩小 了 计算 的 复杂 性 . 尽管 如 此 , 在 Ulna) 上 求 均匀 设计 其 计 
算 依 然 复 杂 . 为 此 , 在 文献 中 提出 了 许多 简化 计算 的 方法 , 如 好 格子 点 法 、 拉 丁 方 
方法 、 切割 法 、 折 又 法 、 且 合法 、 不 完全 区 组 设计 法 以 及 数值 优化 算法 . 这 些 方法 
的 详细 介绍 可 参见 文献 (Fang, et al., 2005). 在 计算 机 试验 中 , 需要 的 试验 数 n 可 
以 很 大 (并 不 影响 经 费 ), 但 寻求 高 质量 的 大 n 的 均匀 设计 仍 是 一 个 挑战 性 的 课题 . 
由 于 Ulna) 是 一 个 离散 集合 , 在 其 上 的 函数 (这 里 就 是 偏差 ) 没有 连续 及 可 
微 的 概念 , 古典 优化 的 各 种 梯度 法 是 爱 莫 能 助 . Fang 和 Winker 合作 了 多 篇 文章 ， 
将 随机 优化 中 的 门限 接受 法 加 以 改进 , 用 来 搜索 均匀 设计 . 详 见 文献 (Fang, et al., 
2000; Fang, et al., 2005). 随机 优化 的 方法 很 多 , 如 退火 法 、 遗传 法 、 进 化 法 等 , 读者 
不 妨 试 试 其 效果 . 
13.2.4 HRA 


记 试验 数据 为 {zk = (Tk Tks) Yes k = 1,… ,n}, 在 计算 机 试验 中 yp = 
9(Zk1，,"… ,Zks), 可 以 算出 , 在 实际 试验 中 , yj 是 由 试验 获得 . 建 模 的 目的 是 找 一 个 
易于 计算 的 拟 模 型 9, 使 得 它 与 真 模型 9 在 试验 区 域内 一 致 地 接近 . 度量 接近 的 水 
平一 般 用 均 方 误 , 它 定义 为 


L 
MSE = + J (9(21) - (2), (13.2.1) 
t=1 
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其 中 , (ay, = 1,… L} 为 试验 区 域内 随机 选择 的 工 个 点 . 在 计算 机 试验 中 , 真 模 
型 g 已 知 , 均 方 误 很 容易 算出 ; 在 模型 未 知 的 试验 中 , 则 需要 追加 试验 或 用 K-fold 
cross validation 等 方法 , 详 见 文献 (Fang, et al., 2005). 

在 高 维 空 间 建 模 是 一 个 困难 、 极 具 挑 战 性 的 课题 . 目前 , 流行 的 做 法 有 以 下 见 
FH: 

(1) 基 函 数 法 ”在 试验 区 域 7 选 一 组 基 函 数 B(s), Bi(w),--- , BJ(z), 考虑 拟 
模型 有 如 下 形式 : 

(x) = HBo(z) 二 BiBi(z) 十 … 十 GJBy(z)， (13.2.2) 
其 中 , B80,B1,.… ,97 可 用 最 小 二 乘法 估 出 . 基 函 数 可 选用 多 项 式 、 正 交 多 项 式 、 回 
归 样 条 函数 、 傅 里 叶 函 数 基 、 小 波 等 . 再 用 筛选 变量 的 方法 , 将 模型 (13.2.2) 中 不 
重要 的 变量 剔除 , 就 可 获得 不 少 有 用 的 拟 模型 . 

(2) Kriging 方法 ”该 方法 是 由 南非 地 质 学 家 Krige 于 1951 年 在 他 的 硕士 论 
文中 发 明 的 . 20 世纪 80 年 代 末 , Sacks 等 (1989a, 1989b) 将 这 一 方法 发 扬 光 大 , 用 
于 计算 机 试验 的 建 模 , 后 来 又 进一步 将 Bayes 的 思想 加 入 其 中 , 详 见 文献 (Morris, 
et al., 1993). Kriging 方法 在 建 模 中 很 有 用 , 但 有 时 有 过 拟 合 的 现象 . 

(3) 人 工 神经 网 络 法 ”该 方法 原则 上 可 用 于 任何 数据 和 任何 复杂 的 非 线 性 模 
型 , 但 其 稳健 性 表现 不 够 稳定 , 有 时 表现 很 好 , 有 时 很 差 . 另外 , 该 方法 提供 的 拟 模 
型 没有 解析 表达 式 , 对 于 分 析 诸 因素 对 响应 的 关系 很 不 方便 . 有 关 人 工 神经 网 络 的 
专著 和 文章 很 多 . 如 可 参见 文献 (Haykin, 1998). 

(4) 仿 射 性 基 函 数 ”考虑 关于 ri,…… ,zs 对 称 的 函数 ， 


d(x) = (z1; ,Ts) = r(]| æ ||), (13.2.3) 


其 中 , |æ || 是 向 量 x 的 Lo 模 . 许多 有 用 的 多 元 分 布 函数 都 可 以 表 为 仿 射 性 对 称 
函数 , 如 标准 多 元 正 态 分 布 , 在 R 空间 中 的 球面 或 球体 内 的 均匀 分 布 、 多 元 对 称 
的 皮尔 还 IL 型 和 VIL 型 分 布 (Fang, et al., 1990). 将 仿 射 对 称 函 数 r(|| æ ||) 作 线性 


变换 得 
k( 5 )， PNE I! 
拟 函 数 可 取 为 如 下 的 形式 : 
一 || a — zi || 
=p+ > bik | ——+*}. 3.2. 
g(x) =u 2f ( 3 ) (13.2.4) 


常用 的 有 k(z) = z, k(2) = z3,k(z) = 22 log z 或 k(z) = e77 等 . 利用 仿 射 性 对 称 函 
数 构造 的 拟 模型 , 计算 简单 , 在 建 模 中 被 普遍 使 用 . 有 关 建 模 的 上 述 方法 的 介绍 和 
讨论 可 参见 文献 (Fang, et al., 2005). 
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当 试验 点 数 不 够 多 且 s 又 不 太 少时 , 建 模 是 极 具 挑战 性 的 课题 , 新 的 方法 不 断 
涌现 . 
13.2.5 不同 试验 设计 方法 之 间 的 关系 和 相互 渗透 

已 回顾 了 许多 设计 方法 , 如 因子 设计 (包括 正 交 设 计 )、 回归 设计 、 组 合 设计 ( 包 
括 各 种 区 组 设计 )、 均匀 设计 等 . 不 同 的 设计 起 源 于 不 同 的 研究 背景 和 试验 目的 , 用 
不 同 的 准则 来 度量 . 在 文献 中 一 般 是 将 这 些 设计 分 开 进行 研究 的 . 近年 来 , 人 们 发 
现 不 同 的 试验 设计 方法 之 间 也 有 一 定 的 共性 , 从 而 可 以 建立 它们 之 间 的 联系 , 并 将 
它们 互相 渗透 、 发 展 新 理论 、 发 现 新 结果 . 这 里 列举 部 分 结果 , 读者 不 难 举一反三 ， 
发 现 更 多 的 关联 . 

1) 因子 设计 和 均匀 性 

均匀 性 虽然 是 个 几何 准则 , 但 列 涵 了 许多 统计 的 信息 , 从 而 均匀 性 在 因子 设计 
中 应 有 丰富 的 应 用 . 

(1) 均匀 性 用 于 鉴别 不 同 构 因子 设计 . 两 个 因子 设计 称 为 同 构 的 , 如 果 一 个 可 以 
由 另 一 个 通过 变换 试验 次 序 、 因 素 重新 标号 或 交换 每 列 中 因子 的 水 平定 义 . 两 个 同 
构 的 设计 在 传统 的 因子 设计 理论 中 是 等 价 的 . 对 于 两 个 因子 设计 Du(4g*)( 有 次 试 
验 、s 个 因素 、 每 个 因素 有 g 个 不 同 水 平 ), 要 鉴别 它们 是 否 同 构 , 需要 比较 nls!(q!)* 
个 同类 设计 , 计算 复杂 性 上 是 一 个 NP Hard 问题 . 直观 上 , 易 见 交换 一 个 因子 设计 
的 设计 点 编号 和 因子 编号 , 不 会 影响 设计 的 均匀 性 和 投影 均匀 性 .利用 这 一 事实 ， 
Ma 等 (2001) 提出 了 一 个 鉴别 不 同 构 因 子 设 计 的 算法 (NIU). 用 NIU 算法 可 以 极 快 
地 鉴别 不 同 构 的 因子 设计 , 如 两 个 不 同 构 的 L3276s(231) 设计 , 完全 的 比较 需要 比较 
32768!23131! 个 设计 , 而 用 NIU 算法 只 需 n 2. 详细 讨论 可 见 文献 (Ma, et al. 1999). 
上 述 思 想 也 用 于 识别 不 等 价 的 Hadamard 矩阵 , 详 见 文献 (Fang and Ge, 2004). 

(2) 正 交 性 与 均匀 性 . 正 交 设计 是 基于 因素 间 水 平 组 合 的 均衡 性 来 定义 的 , 显 
然 , 正 交 设计 的 试验 点 在 其 试验 范围 内 (不 失 一 般 性 , 仍 定 为 s 维 空间 的 单位 超 立 方 
YS) 满足 一 定 意义 下 的 均匀 性 . 选用 中 心 化 Lo 偏差 , 可 以 发 现 (Fang, et al., 2000), 
常用 的 许多 正 交 表 均 是 一 定 意义 下 的 均匀 设计 , 可 以 通过 优化 算法 用 计算 机 在 极 短 
时 间 内 求 得 , 而 这 些 正 交 设 计 是 数学 家 们 通过 多 年 才 获 得 的 . Fang 和 Ma (2000) 还 
进一步 发 现 两 个 同 构 的 Lo(34) 有 不 同 的 统计 性 质 , 这 一 发 现 打破 了 “ 同 构 正 交 表 
有 相同 统计 性 质 ” 的 断言 . 因此 , 将 均匀 性 加 入 到 比较 正 交 设计 , 可 以 发 展 许多 新 
的 结论 . 这 方面 仍 有 很 大 的 研究 空间 . 

(3) 优势 理论 平台 . 注意 到 正 交 设计 、 超 饱和 设计 和 常见 的 均匀 设计 都 是 从 U 
型 设计 中 用 不 同 的 准则 选 出 来 的 , 当 (n, s,9) 给 定 后 , 不 同 的 准则 导出 不 同 的 设计 . 
这 一 共同 性 提示 我 们 也 许可 以 将 这 三 类 设计 放 在 同一 理论 平台 上 . Zhang 等 (2005) 
利用 数学 中 的 优势 理论 (theory of majorization), 将 这 三 类 设计 放 在 同一 个 框架 下 
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研究 , 不 同 的 准则 表 成 优势 理论 中 的 不 同 Schur MAR. 这 是 站 在 一 个 更 高 的 台阶 
上 来 理解 上 述 三 类 设计 , 同时 用 同一 的 理论 来 求 上 述 三 类 设计 中 诸 准 则 的 下 界 , 而 
在 文献 中 , 这 些 下 界 是 不 同 作者 在 不 同 的 文献 中 分 别 获得 的 . Fang 和 Zhang (2004) 
利用 优势 理论 来 比较 不 同 构 的 饱和 正 交 设计 Lie(25), 得 到 与 文献 中 不 同 的 结论 , 引 
发 了 入 们 对 比较 正 交 设计 各 种 准则 的 重新 思考 . 

2) 回归 设计 与 均匀 设计 

前 面 曾 述 及 回归 设计 当 模 型 选择 正确 时 有 最 好 的 “有 效 性 ”, 但 缺乏 对 模型 变 
化 的 稳健 性 ; 均匀 设计 具有 稳健 性 , 但 不 能 确保 有 效 性 , 一 个 自然 的 想法 是 将 两 类 
设计 点 适当 混杂 , 使 新 设计 能 兼顾 “有 效 性 ”和 “稳健 性 *. 曾 有 人 作 过 尝试 , 结果 
证 明 上 述 思 路 是 可 行 的 , 但 尚未 见 到 正式 发 表 的 文章 . 

3) 均匀 混 料 试验 设计 

在 新 材料 、 食 品 及 低温 超 导 等 研究 中 , 将 不 同 的 材料 混在 一 起 合成 一 个 和 新 的 
产品 , 有 关 的 试验 称 为 混 料 试验 . 用 z1,… ,zs 表示 s 种 材料 在 混合 时 的 比例 , 它 
们 必须 满足 

{ BAUE ka (13.2.5) 
Ti+ -+T = 1. 

如 何 选择 最 佳 的 比例 使 产品 有 最 好 的 性 能 , 这 是 混 料 设计 的 目标 . Cornell (2002) 收 
集 了 混 料 设计 的 各 种 方法 和 有 关 建 模 . 为 了 给 使 用 者 更 多 的 选择 , Fang 和 Wang 
(1994) 将 均匀 性 系统 地 用 于 混 料 设计 , 创造 了 混 料 均匀 设计 . 但 在 大 部 分 的 课题 中 ， 
不 同 原料 比例 的 使 用 范围 可 能 很 不 一 样 , 即 存在 0 < a; < 5; < 1, 使 得 


Qi < Ti < bit = ys: ) 3， 
(13.2.6) 
rte tay =l. 
显然 , 这 时 的 试验 范围 为 
J(a,b) = {(a1,-°-- , Ts)|ai < Ti < bi, i = l,e 158, T] tert Cg = L 


混 料 均匀 设计 的 目标 是 在 .7(a,b) 上 寻找 n 个 试验 点 Zi，… ,zn, 使 其 在 J(a,b) 
上 散布 均匀 . 这 里 涉及 如 下 两 个 主要 的 问题 : 

(1) 如 何 定义 在 7 了 (a.5b) 上 的 均匀 性 测度 ; 

(2) 如 何 寻找 试验 点 , 使 之 在 J (a,b) 上 散布 均匀 ， 

Wang 和 Fang (1996) 运用 变换 的 方法 解决 了 上 述 两 个 问题 , 但 所 用 的 方法 对 
FAR b; 一 a; 其 小 时 , 相应 的 均匀 设计 看 上 去 不 是 那么 均匀 . 随后 , Fang 和 Yang 
(1999) 利用 Monto Carlo 中 的 接受 -拒绝 法 (acceptance-rejection technique) 和 逆 变 
换 法 , 对 Wang 和 Fang 的 方法 有 所 改进 . 近年 来 , 不 少 作者 试图 在 Jla, b) 上 定义 
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新 的 均匀 性 测度 和 构造 有 关 的 均匀 设计 ， 详 见 文献 (Prescott, 2008; Borkowski and 
John, 2006; ‘T Æ¥#, 2008). 


13.3 序 贯 设计 


人 类 认识 自然 是 一 个 长 期 的 过 程 , 不 断 深化 , 用 新 知识 、 新 技术 不 断 修 正 已 建 
立 的 理论 . 一 个 项 目的 试验 很 难 一 步 到 位 , 序 贯 试 验 就 是 将 试验 分 成 多 次 , 将 已 做 
试验 的 信息 , 用 于 随后 的 试验 之 中 . 例如 , 一 个 探索 性 的 试验 中 , 第 一 轮 试验 通常 选 
取 的 试验 范围 较 大 , 因素 的 数目 较 多 . 通过 试验 可 删除 影响 不 显著 的 因素 , 缩小 试 
验 范 围 , 然后 进入 第 二 轮 试验 . 这 时 , 因素 的 数目 己 大 大 减少 , 可 以 安排 更 为 精细 的 
试验 . 如 果 第 二 轮 试验 达 不 到 预期 的 目的 , 可 进入 第 三 轮 : 第 四 轮 试验 等 . 


13.3.1 ” 超 饱和 试验 设计 


第 一 轮 试验 中 由 于 因素 太 多 , 势必 要 求 较 大 的 试验 数目 n. 为 了 节省 经 费 和 时 
间 , 能 否 用 较 小 的 试验 数 n, 在 第 一 轮 试验 中 来 筛选 因素 呢 ? 这 一 想法 形成 了 当前 
很 热门 的 “ 超 饱和 试验 设计 ”. 在 一 个 有 s 个 因素 的 试验 中 , 若 因素 的 水 平 数 分 别 为 


ggs 按 因 子 试验 的 主 效应 可 加 模型 , 共有 M = 》 (qi — 1) 个 主 效应 要 估计 ， 
j= 

如 果 M > n— 1, 这 时 必 有 一 部 分 主 效应 互相 混杂 而 估 不 出 来 , 这 样 的 设计 称 为 超 
饱和 试验 设计 . 超 饱 和 试验 设计 是 希望 用 有 限 的 资源 , 最 好 地 筛选 出 有 影响 的 因素 . 

(1) 超 饱和 设计 的 最 优 准 则 “对 二 水 平 超 饱 和 设计 ，Booth 和 Cox (1962) 从 设 
计 和 矩阵 列 相 关 的 角度 提出 了 El) 准则 . 关于 该 准则 的 下 界 问题 , 近年 来 有 很 多 的 
Bt, 最 新 的 如 文献 (Das, et al., 2008; Bulutoglu and Ryan, 2008). 从 定义 看 , 显 
然 超 饱 和 设计 一 定 不 是 正 交 设 计 , 于 是 人 们 考虑 近似 正 交 或 部 分 因素 之 间 正 交 . 所 
谓 设计 中 某 些 列 之 间 正 交 , 就 是 这 些 因素 的 水 平 组 合 有 相同 的 重复 次 数 . 如 果 它 们 
之 间 的 重复 次 数 不 同 , 但 最 好 不 要 相差 太 多 . Wang 和 Wu (1992) 首次 提出 “nearly 
orthogonal array” 的 概念 ，Yamada 和 Lin (1999) 针对 三 水 平 超 饱 和 设计 提出 了 
Avex? 准则 , Fang 等 (2000) 和 Lu 和 Sun (2001) 针对 多 水 平 超 饱和 设计 分 别提 出 
了 Ave(f?) 和 EE(d?) 准则 . 后 来 对 混 水 平 的 情形 ，Yamada 和 Matsui (2002) 提出 
了 x2(D) N, Fang 等 (2003) 提出 了 E(fyop) 准则 . 显然 , 均匀 性 也 可 作为 衡量 
超 饱和 设计 好 坏 的 标准 , 特别 是 可 取 离 散 偏差 作为 均匀 性 度量 , 或 构造 超 饱 和 设计 
的 准则 . 另外 ,前面 提 到 的 GMA 和 MMA 准则 也 可 作为 超 饱和 设计 的 准则 . 关于 
这 些 准 则 的 下 界 及 相互 之 间 关系 的 研究 ， 目 前 已 有 不 少 的 文献 (如 Li, et al., 2004; 
Fang, et al. 2004; Xu and Wu, 2005; Liu, et al. 2006; Ai, et al., 2007; Liu and Lin, 
2009). 上 述 这 些 研究 都 是 针对 平衡 设计 (balanced design) #E4T AY. Sei, Chen 和 
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Liu (2008b) 针对 一 般 试 验 次 数 下 混 水 平 超 饱和 设计 得 到 了 x?(D) 及 E( fron) 的 下 
界 和 充 要 条 件 . 对 上 述 各 准则 , 往往 需要 在 特定 的 参数 组 合 下 才能 达到 文献 中 已 给 
出 的 下 界 . 当 因 素数 s KAS, 或 特定 的 参数 组 合 不 能 满足 时 , 有 关 的 紧 下 界 尚 未 
获得 , 这 是 一 个 很 有 意义 的 课题 . 

(2) 超 饱和 设计 的 构造 ”最 初 , 许多 作者 把 超 饱 和 设计 局 限于 二 水 平 或 三 水 平 ， 
关于 这 些 设计 的 构造 ， 目 前 已 有 相当 丰富 的 文献 . 作者 可 从 上 面 刚刚 提 到 的 这 些 
文献 或 其 所 引用 的 参考 文献 中 看 到 各 种 构造 方法 和 最 优 设计 . 而 从 实用 角度 看 , 多 
水 平 及 混 水 平 的 超 饱 和 设计 也 是 十 分 需要 的 . 如 果 均 匀 设 计 是 在 U 设计 的 框架 下 ， 
当 水 平 数 较 大 时 , 均匀 设计 也 是 超 饱 和 设计 . 近年 来 , 用 均匀 性 和 均衡 性 来 构造 多 
水 平 及 泥水 平 的 超 饱 和 设计 也 已 有 了 丰富 的 成 果 和 有 效 的 方法 ,特别 是 所 选用 准 
WW (如 x2(D), E(fyon), GMA, 及 离散 偏差 等 ) 的 下 界 对 构造 方法 及 优化 算法 很 有 
参考 价值 . 这 方面 的 最 新 成 果 参 见 文献 (如 Chen and Liu, 2008a, 2008b; Nguyen 
and Liu, 2008; Liu and Lin, 2009; Liu and Cai, 2009; Liu and Zhang, 2009). 特别 
要 提 到 的 是 ，Nguyen (1996) 首先 建立 了 二 水 平 超 饱 和 设计 与 平衡 不 完全 区 组 设计 
(BIBD) 之 间 的 联系 , 其 方法 被 Liu 和 Zhang (2000) 进行 了 推广 . 而 Fang 等 (2002) 
则 建立 了 多 水 平 超 饱 和 设计 与 可 分 解 的 BIBD 之 间 的 联系 . 此 后 , 有 相当 数量 的 文 
章 用 Elfo) 及 离散 偏差 等 作 准 则 , 通过 不 完全 区 组 设计 构造 了 一 大 批 超 饱和 设 
i, 这 其 中 包括 我 们 和 我 们 的 合作 者 的 不 少 工作 . 在 超 饱和 设计 的 构造 方面 , 如何 
构造 达到 或 接近 相关 准则 下 界 的 设计 ， 或 构造 参数 不 满足 下 界 所 需 的 特定 组 合 的 
设计 , 以 及 构造 尽 可 能 最 小 化 maxisi<jss fit, Be maxicicj<s X° (£i, zj) (Chen and 
Liu, 2008a, 2008b) 的 设计 仍 是 非常 值得 探索 的 课题 . 

(3) 超 饱和 设计 的 数据 分 析 “使 用 超 饱 和 设计 的 主要 吸引 力 在 于 它 的 经 济 性 ， 
用 较 少 的 试验 次 数 可 用 来 考察 筛选 较 多 的 因子 , 关键 问题 是 如 何 进行 数据 分 析 . 利 
用 效应 稀疏 原则 , 可 认为 只 有 少数 几 个 重要 的 因子 具有 较 大 的 效应 , 从 而 可 以 把 它 
们 估计 出 来 . 因而 从 本 质 上 讲 设 计 的 超 饱 和 性 不 是 数据 分 析 中 的 障碍 , 但 是 在 分 析 
方法 上 是 需要 研究 的 . 现 已 有 不 少 方法 , 如 逐步 回归 分 析 方 法 、Bayes 方法 、 MCMC 
方法 、 带 惩罚 的 最 小 二 乘 方法 、 基 于 对 照 的 方法 等 , 但 都 是 针对 二 水 平 超 饱 和 设计 
而 言 的 . 最 近 , Zhang 等 (2007) 对 混 水 平 的 超 饱 和 设计 提出 了 偏 最 小 二 乘 变 量 选择 
法 , 可 有 效 地 应 用 于 活跃 效应 的 筛选 , 而 Phoa 等 (2009) 则 提出 了 一 种 通过 Dantzig 
选择 量 进行 超 饱和 设计 变量 筛选 的 方法 . 超 饱 和 设计 的 数据 分 析 具 有 相当 大 的 难 
度 但 有 重要 理论 意义 和 实际 价值 ， 这 方面 研究 的 空间 仍 很 大 . 


13.3.2 ”响应 曲面 方法 


响应 曲面 方法 (response surface methodology, 简 记 为 RSM) 是 在 工业 试验 中 非 
常 流行 的 方法 , 由 Box 和 Wilson (1951) 首先 提出 来 的 . 由 于 工业 生产 不 允许 试验 
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范围 太 大 , 故 第 一 轮 试验 是 在 一 个 小 的 范围 内 进行 . 由 于 范围 小 , 可 以 认为 模型 已 
知 . 例如 , 可 用 二 水 平 正 交 试 验 加 一 个 中 心 点 来 安排 试验 .然后 用 一 个 低 阶 多 项 式 
回归 来 拟 合 试验 数据 , 根据 试验 结果 的 分 析 ， 将 试验 范围 作 一 个 小 的 移动 , 然后 重复 
以 上 的 步骤 , 直至 满意 为 止 , 详细 介绍 可 参见 文献 (Mayers and Montgomery, 1995). 
RSM 是 目前 最 流行 的 用 于 工业 生产 的 序 贯 试验 方法 . 

由 于 RSM 的 试验 的 主体 是 基于 二 水 平 的 正 交 设 计 的 , 近年 来 , 不 少 文章 将 二 
水 平 推广 为 多 水 平 , 将 正 交 设 计 换 为 均匀 设计 . 例如 , 文献 ( 王 莉 丽 和 王 柱 , 2005; 张 
英 香 等 , 2006). 这 一 思路 最 初 来 源 于 优化 的 序 贯 数论 方法 (SNTO)(Fang and Wang, 
1994). 用 这 一 方法 , 每 一 轮 试验 都 在 前 一 轮 试验 的 基础 上 将 试验 范围 大 大 缩小 . FE 
贯 均匀 设计 已 有 不 少 成 功 的 案例 . 


13.4 结 R 语 


在 统计 科学 中 , 试验 设计 有 较 长 的 历史 , 但 是 至 今 仍然 非常 活跃 , 其 原因 是 新 
技术 、 新 科学 不 断 涌现 , 需要 新 的 试验 设计 的 方法 和 相应 的 建 模 技 术 . 借助 于 试验 
设计 和 建 模 的 理论 和 方法 , 会 大 大 加 速 科学 的 新 发 现 、 新 技术 的 顺利 诞生 , 使 新 产 
品 更 加 完美 . 特别 是 非 统计 专业 的 研究 生 , 如 果 在 试验 设计 和 建 模 方面 有 一 定 的 知 
识 , 将 会 大 大 有 助 于 课题 的 研究 . 试验 设计 和 建 模 方向 仍 有 许多 有 挑战 的 课题 , 本 
章 中 提 及 了 很 少 的 一 部 分 , 供 有 关 读 者 参考 . 这 方面 有 更 多 的 研究 课题 , 读者 不 难 
在 文献 中 找到 . 
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